Il benchmark OmniToM testa la Teoria della Mente negli LLM tramite modellazione delle credenze

ai-technology · 2026-05-27

OmniToM è un nuovo benchmark introdotto in arXiv:2605.26322 che valuta la Teoria della Mente (ToM) nei grandi modelli linguistici (LLM) richiedendo la modellazione esplicita delle strutture di credenza per tutti gli attori in una narrazione. A differenza del tradizionale question-answering a punto finale, che giudica solo le risposte finali a domande di ragionamento sociale, OmniToM valuta direttamente se i modelli costruiscono rappresentazioni mentali sottostanti. Il benchmark utilizza proposizioni di credenza—dichiarazioni minime di ciò che un attore crede sul mondo o sullo stato mentale di un altro—per analizzare conoscenze, intenzioni, emozioni e false credenze in un formato comune. Questo affronta il divario nella valutazione del ragionamento robusto in scenari con credenze divergenti, in evoluzione o errate. La ricerca è pubblicata su arXiv.

Fatti principali

OmniToM valuta la Teoria della Mente negli LLM tramite modellazione esplicita delle credenze
Utilizza proposizioni di credenza per rappresentare gli stati mentali
Valuta conoscenze, intenzioni, emozioni e false credenze
Affronta i limiti del question-answering a punto finale
Pubblicato su arXiv con ID 2605.26322

Il benchmark OmniToM testa la Teoria della Mente negli LLM tramite modellazione delle credenze

Fatti principali

Entità

Istituzioni

Fonti