La fiducia verbale dei LLM fallisce la validità psicometrica nei modelli 3-9B

ai-technology · 2026-04-27

C'è questo studio di ricerca apparso su arXiv (2604.22215) in cui hanno esaminato se sette diversi modelli linguistici open-weight istruiti con istruzioni, con parametri tra 3 e 9 miliardi provenienti da quattro famiglie diverse, potessero produrre punteggi di confidenza verbale che soddisfano i requisiti di validità di base per la discriminazione di Tipo-2 a livello di item. Lo hanno testato con 524 item di TriviaQA, utilizzando sia metodi numerici (0-100) che categorici (10 classi) mentre eseguivano 8.384 prove su hardware standard. Sfortunatamente, tutti e sette i modelli non sono riusciti a generare punteggi di confidenza numerici validi, raggiungendo un tasso medio di ceiling del 91,7%. L'uso di metodi categorici non ha aiutato e ha addirittura peggiorato le prestazioni per sei dei modelli.

Fatti principali

Studio pre-registrato su OSF (osf.io/azbvx)
Testati sette modelli open-weight istruiti con istruzioni
Modelli di quattro famiglie, parametri 3-9B
Utilizzati 524 item di TriviaQA
Elicitazione numerica (0-100) e categorica (10 classi)
Applicato decoding greedy
Condotte 8.384 prove deterministiche
Tutti e sette i modelli non validi per la confidenza numerica
Tasso medio di ceiling del 91,7%
L'elicitazione categorica ha compromesso l'accuratezza in sei modelli

La fiducia verbale dei LLM fallisce la validità psicometrica nei modelli 3-9B

Fatti principali

Entità

Istituzioni

Fonti