La fiducia verbale dei LLM fallisce la validità psicometrica nei modelli 3-9B
C'è questo studio di ricerca apparso su arXiv (2604.22215) in cui hanno esaminato se sette diversi modelli linguistici open-weight istruiti con istruzioni, con parametri tra 3 e 9 miliardi provenienti da quattro famiglie diverse, potessero produrre punteggi di confidenza verbale che soddisfano i requisiti di validità di base per la discriminazione di Tipo-2 a livello di item. Lo hanno testato con 524 item di TriviaQA, utilizzando sia metodi numerici (0-100) che categorici (10 classi) mentre eseguivano 8.384 prove su hardware standard. Sfortunatamente, tutti e sette i modelli non sono riusciti a generare punteggi di confidenza numerici validi, raggiungendo un tasso medio di ceiling del 91,7%. L'uso di metodi categorici non ha aiutato e ha addirittura peggiorato le prestazioni per sei dei modelli.
Fatti principali
- Studio pre-registrato su OSF (osf.io/azbvx)
- Testati sette modelli open-weight istruiti con istruzioni
- Modelli di quattro famiglie, parametri 3-9B
- Utilizzati 524 item di TriviaQA
- Elicitazione numerica (0-100) e categorica (10 classi)
- Applicato decoding greedy
- Condotte 8.384 prove deterministiche
- Tutti e sette i modelli non validi per la confidenza numerica
- Tasso medio di ceiling del 91,7%
- L'elicitazione categorica ha compromesso l'accuratezza in sei modelli
Entità
Istituzioni
- arXiv
- OSF