ARTFEED — Contemporary Art Intelligence

La fiducia verbale dei LLM fallisce la validità psicometrica nei modelli 3-9B

ai-technology · 2026-04-27

C'è questo studio di ricerca apparso su arXiv (2604.22215) in cui hanno esaminato se sette diversi modelli linguistici open-weight istruiti con istruzioni, con parametri tra 3 e 9 miliardi provenienti da quattro famiglie diverse, potessero produrre punteggi di confidenza verbale che soddisfano i requisiti di validità di base per la discriminazione di Tipo-2 a livello di item. Lo hanno testato con 524 item di TriviaQA, utilizzando sia metodi numerici (0-100) che categorici (10 classi) mentre eseguivano 8.384 prove su hardware standard. Sfortunatamente, tutti e sette i modelli non sono riusciti a generare punteggi di confidenza numerici validi, raggiungendo un tasso medio di ceiling del 91,7%. L'uso di metodi categorici non ha aiutato e ha addirittura peggiorato le prestazioni per sei dei modelli.

Fatti principali

  • Studio pre-registrato su OSF (osf.io/azbvx)
  • Testati sette modelli open-weight istruiti con istruzioni
  • Modelli di quattro famiglie, parametri 3-9B
  • Utilizzati 524 item di TriviaQA
  • Elicitazione numerica (0-100) e categorica (10 classi)
  • Applicato decoding greedy
  • Condotte 8.384 prove deterministiche
  • Tutti e sette i modelli non validi per la confidenza numerica
  • Tasso medio di ceiling del 91,7%
  • L'elicitazione categorica ha compromesso l'accuratezza in sei modelli

Entità

Istituzioni

  • arXiv
  • OSF

Fonti