I Questionari Psicometrici Umani Non Riescono a Caratterizzare il Comportamento degli LLM

ai-technology · 2026-06-01

Una recente indagine pubblicata su arXiv (2509.10078) indica che i sondaggi psicometrici progettati per gli esseri umani non catturano efficacemente il comportamento dei grandi modelli linguistici (LLM). Lo studio ha esaminato otto LLM open-source, confrontando le valutazioni di valori e personalità derivate da autovalutazioni Likert (PVQ-40/21, BFI-44/10) con la probabilità di generare risposte a richieste degli utenti orientate ai valori. I risultati hanno mostrato una divergenza significativa tra i due profili. La coerenza attesa all'interno dei costrutti, spesso utilizzata per sostenere l'esistenza di tratti stabili degli LLM, era assente nelle probabilità di generazione. Questa discrepanza deriva dagli espliciti indizi lessicali presenti nelle domande del sondaggio, che consentono ai modelli di identificare e rispondere in modi socialmente accettabili, a differenza delle tipiche richieste degli utenti. Inoltre, i prompt di persona demografica alterano le reazioni dei modelli ai sondaggi umani.

Fatti principali

Lo studio esamina l'affidabilità dei questionari psicometrici umani per la caratterizzazione del comportamento degli LLM
Otto LLM open-source analizzati
Confronto tra autovalutazioni Likert (PVQ-40/21, BFI-44/10) e probabilità di generazione
I due profili divergono sostanzialmente
La coerenza degli item all'interno del costrutto scompare nelle probabilità di generazione
Gli espliciti indizi lessicali nei questionari consentono risposte socialmente desiderabili
Le richieste realistiche degli utenti non forniscono tali indizi
I prompt di persona demografica modificano le risposte ai questionari umani

I Questionari Psicometrici Umani Non Riescono a Caratterizzare il Comportamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti