I MLLM falliscono nel ragionamento sulla personalità basato su evidenze
Un nuovo studio da arXiv (2605.22109) rivela che i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) faticano a percepire la personalità attraverso la comprensione comportamentale, affidandosi invece a un superficiale riconoscimento di pattern. I ricercatori introducono il Grounded Personality Reasoning (GPR), un compito che richiede ai modelli di ancorare le valutazioni dei Big Five a evidenze osservabili tramite una catena di valutazione, ragionamento e ancoraggio. Pubblicano MM-OCEAN, un dataset di 1.104 video e 5.320 domande a scelta multipla con osservazioni comportamentali temporizzate e domande di ancoraggio a indizi. Una valutazione a tre livelli (valutazione, ragionamento, ancoraggio) mostra che gli attuali MLLM ottengono scarsi risultati nei compiti di ragionamento più profondi, indicando un divario tra la previsione numerica e la genuina comprensione comportamentale.
Fatti principali
- Studio pubblicato su arXiv (2605.22109)
- Introduce il compito Grounded Personality Reasoning (GPR)
- Pubblica il dataset MM-OCEAN con 1.104 video e 5.320 domande a scelta multipla
- Il dataset include osservazioni comportamentali temporizzate e domande di ancoraggio a indizi
- Valutazione a tre livelli: valutazione, ragionamento, ancoraggio
- I MLLM ottengono scarsi risultati nei compiti di ragionamento e ancoraggio
- I modelli si affidano a un superficiale riconoscimento di pattern anziché alla comprensione comportamentale
- I benchmark esistenti valutano solo la previsione dei punteggi dei Big Five
Entità
Istituzioni
- arXiv