ARTFEED — Contemporary Art Intelligence

Il monitoraggio metacognitivo a livello di dominio varia ampiamente tra 33 LLM all'avanguardia

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.06673) ha indagato il monitoraggio metacognitivo in 33 LLM avanzati provenienti da otto diverse famiglie di modelli. I ricercatori hanno valutato 1.500 item MMLU, distribuendo 250 item per dominio in sei aree distinte. L'analisi ha calcolato l'AUROC di Tipo 2 per ogni combinazione modello-dominio basandosi su punteggi di confidenza verbalizzati (da 0 a 100), ottenendo 47.151 punti dati. I risultati hanno indicato che tutti i modelli che mostravano un monitoraggio aggregato superiore al caso presentavano una variazione significativa a livello di dominio. Il dominio della conoscenza Applicata/Professionale è stato il più facile da monitorare (AUROC medio = 0,742, classificato tra i primi 2 per 21 modelli su 33), mentre il Ragionamento Formale e le Scienze Naturali sono risultati i più difficili (uno dei due si è classificato tra gli ultimi 2 per 27 modelli su 33). I tre domini intermedi non hanno mostrato distinzioni statistiche (W di Kendall = 0,164). Un'analisi di coerenza a livello di materia (rapporto di similarità intra-dominio = 0,95) ha validato il raggruppamento in sei domini come una tassonomia di riferimento utile piuttosto che un costrutto latente consolidato.

Fatti principali

  • Sono stati testati 33 LLM all'avanguardia provenienti da otto famiglie di modelli
  • Sono stati somministrati 1.500 item MMLU (250 per dominio)
  • Sei domini: Applicato/Professionale, Ragionamento Formale, Scienze Naturali e tre domini intermedi
  • Osservazioni totali: 47.151
  • Il dominio Applicato/Professionale ha avuto un AUROC medio = 0,742
  • Il dominio Applicato/Professionale si è classificato tra i primi 2 in 21 modelli su 33
  • Il Ragionamento Formale o le Scienze Naturali si sono classificati tra gli ultimi 2 in 27 modelli su 33
  • Rapporto di similarità intra-dominio = 0,95

Entità

Istituzioni

  • arXiv

Fonti