Il benchmark OmniToM testa la Teoria della Mente negli LLM tramite modellazione delle credenze
OmniToM è un nuovo benchmark introdotto in arXiv:2605.26322 che valuta la Teoria della Mente (ToM) nei grandi modelli linguistici (LLM) richiedendo la modellazione esplicita delle strutture di credenza per tutti gli attori in una narrazione. A differenza del tradizionale question-answering a punto finale, che giudica solo le risposte finali a domande di ragionamento sociale, OmniToM valuta direttamente se i modelli costruiscono rappresentazioni mentali sottostanti. Il benchmark utilizza proposizioni di credenza—dichiarazioni minime di ciò che un attore crede sul mondo o sullo stato mentale di un altro—per analizzare conoscenze, intenzioni, emozioni e false credenze in un formato comune. Questo affronta il divario nella valutazione del ragionamento robusto in scenari con credenze divergenti, in evoluzione o errate. La ricerca è pubblicata su arXiv.
Fatti principali
- OmniToM valuta la Teoria della Mente negli LLM tramite modellazione esplicita delle credenze
- Utilizza proposizioni di credenza per rappresentare gli stati mentali
- Valuta conoscenze, intenzioni, emozioni e false credenze
- Affronta i limiti del question-answering a punto finale
- Pubblicato su arXiv con ID 2605.26322
Entità
Istituzioni
- arXiv