I miglioramenti del ToM negli LLM non sempre avvantaggiano le interazioni uomo-AI
Un nuovo studio pubblicato su arXiv mette in discussione l'assunto che migliorare la Teoria della Mente (ToM) nei Large Language Models (LLM) migliori direttamente le interazioni uomo-AI. I ricercatori propongono un paradigma di valutazione interattiva che passa da benchmark statici in terza persona a valutazioni in prima persona, dinamiche e aperte. Hanno testato quattro tecniche di potenziamento del ToM in compiti orientati agli obiettivi (coding, matematica) e compiti orientati all'esperienza (consulenza), utilizzando quattro dataset reali e uno studio con utenti. I risultati mostrano che i miglioramenti sui benchmark statici non si traducono costantemente in migliori prestazioni interattive. I risultati evidenziano la necessità di metodi di valutazione che riflettano le dinamiche effettive della comunicazione uomo-AI.
Fatti principali
- Lo studio esamina se il miglioramento del ToM negli LLM avvantaggi le interazioni uomo-AI
- Propone un paradigma di valutazione interattiva con cambi di prospettiva e metriche
- Testa quattro tecniche di potenziamento del ToM
- Utilizza quattro dataset reali e uno studio con utenti
- Copre compiti orientati agli obiettivi (coding, matematica) e orientati all'esperienza (consulenza)
- I miglioramenti sui benchmark statici non sempre si traducono in contesti interattivi
- Pubblicato su arXiv con identificatore 2605.15205
- Studio condotto da ricercatori affiliati ad arXiv
Entità
Istituzioni
- arXiv