ARTFEED — Contemporary Art Intelligence

Il benchmark OmniToM testa la Teoria della Mente negli LLM tramite modellazione delle credenze

ai-technology · 2026-05-27

OmniToM è un nuovo benchmark introdotto in arXiv:2605.26322 che valuta la Teoria della Mente (ToM) nei grandi modelli linguistici (LLM) richiedendo la modellazione esplicita delle strutture di credenza per tutti gli attori in una narrazione. A differenza del tradizionale question-answering a punto finale, che giudica solo le risposte finali a domande di ragionamento sociale, OmniToM valuta direttamente se i modelli costruiscono rappresentazioni mentali sottostanti. Il benchmark utilizza proposizioni di credenza—dichiarazioni minime di ciò che un attore crede sul mondo o sullo stato mentale di un altro—per analizzare conoscenze, intenzioni, emozioni e false credenze in un formato comune. Questo affronta il divario nella valutazione del ragionamento robusto in scenari con credenze divergenti, in evoluzione o errate. La ricerca è pubblicata su arXiv.

Fatti principali

  • OmniToM valuta la Teoria della Mente negli LLM tramite modellazione esplicita delle credenze
  • Utilizza proposizioni di credenza per rappresentare gli stati mentali
  • Valuta conoscenze, intenzioni, emozioni e false credenze
  • Affronta i limiti del question-answering a punto finale
  • Pubblicato su arXiv con ID 2605.26322

Entità

Istituzioni

  • arXiv

Fonti