Il monitoraggio metacognitivo a livello di dominio varia ampiamente tra 33 LLM all'avanguardia
Uno studio recente pubblicato su arXiv (2605.06673) ha indagato il monitoraggio metacognitivo in 33 LLM avanzati provenienti da otto diverse famiglie di modelli. I ricercatori hanno valutato 1.500 item MMLU, distribuendo 250 item per dominio in sei aree distinte. L'analisi ha calcolato l'AUROC di Tipo 2 per ogni combinazione modello-dominio basandosi su punteggi di confidenza verbalizzati (da 0 a 100), ottenendo 47.151 punti dati. I risultati hanno indicato che tutti i modelli che mostravano un monitoraggio aggregato superiore al caso presentavano una variazione significativa a livello di dominio. Il dominio della conoscenza Applicata/Professionale è stato il più facile da monitorare (AUROC medio = 0,742, classificato tra i primi 2 per 21 modelli su 33), mentre il Ragionamento Formale e le Scienze Naturali sono risultati i più difficili (uno dei due si è classificato tra gli ultimi 2 per 27 modelli su 33). I tre domini intermedi non hanno mostrato distinzioni statistiche (W di Kendall = 0,164). Un'analisi di coerenza a livello di materia (rapporto di similarità intra-dominio = 0,95) ha validato il raggruppamento in sei domini come una tassonomia di riferimento utile piuttosto che un costrutto latente consolidato.
Fatti principali
- Sono stati testati 33 LLM all'avanguardia provenienti da otto famiglie di modelli
- Sono stati somministrati 1.500 item MMLU (250 per dominio)
- Sei domini: Applicato/Professionale, Ragionamento Formale, Scienze Naturali e tre domini intermedi
- Osservazioni totali: 47.151
- Il dominio Applicato/Professionale ha avuto un AUROC medio = 0,742
- Il dominio Applicato/Professionale si è classificato tra i primi 2 in 21 modelli su 33
- Il Ragionamento Formale o le Scienze Naturali si sono classificati tra gli ultimi 2 in 27 modelli su 33
- Rapporto di similarità intra-dominio = 0,95
Entità
Istituzioni
- arXiv