I Questionari Psicometrici Umani Non Riescono a Caratterizzare il Comportamento degli LLM
Una recente indagine pubblicata su arXiv (2509.10078) indica che i sondaggi psicometrici progettati per gli esseri umani non catturano efficacemente il comportamento dei grandi modelli linguistici (LLM). Lo studio ha esaminato otto LLM open-source, confrontando le valutazioni di valori e personalità derivate da autovalutazioni Likert (PVQ-40/21, BFI-44/10) con la probabilità di generare risposte a richieste degli utenti orientate ai valori. I risultati hanno mostrato una divergenza significativa tra i due profili. La coerenza attesa all'interno dei costrutti, spesso utilizzata per sostenere l'esistenza di tratti stabili degli LLM, era assente nelle probabilità di generazione. Questa discrepanza deriva dagli espliciti indizi lessicali presenti nelle domande del sondaggio, che consentono ai modelli di identificare e rispondere in modi socialmente accettabili, a differenza delle tipiche richieste degli utenti. Inoltre, i prompt di persona demografica alterano le reazioni dei modelli ai sondaggi umani.
Fatti principali
- Lo studio esamina l'affidabilità dei questionari psicometrici umani per la caratterizzazione del comportamento degli LLM
- Otto LLM open-source analizzati
- Confronto tra autovalutazioni Likert (PVQ-40/21, BFI-44/10) e probabilità di generazione
- I due profili divergono sostanzialmente
- La coerenza degli item all'interno del costrutto scompare nelle probabilità di generazione
- Gli espliciti indizi lessicali nei questionari consentono risposte socialmente desiderabili
- Le richieste realistiche degli utenti non forniscono tali indizi
- I prompt di persona demografica modificano le risposte ai questionari umani
Entità
Istituzioni
- arXiv