Il benchmark EnactToM testa la Teoria della Mente funzionale negli agenti AI

ai-technology · 2026-05-12

Un nuovo benchmark chiamato EnactToM è stato sviluppato dai ricercatori per valutare la Teoria della Mente (ToM) funzionale in agenti AI incarnati. A differenza dei benchmark tradizionali che si concentrano su indagini dirette sulle credenze, EnactToM valuta quanto bene gli agenti possono agire basandosi su credenze implicite in contesti multi-agente. Questo benchmark presenta 300 compiti all'interno di un ambiente domestico 3D caratterizzato da visibilità limitata, dati privati e comunicazione ristretta. Ogni compito è rigorosamente validato per risolvibilità e profondità epistemica necessaria, con compiti aggiuntivi creati per aumentare i livelli di sfida man mano che i modelli avanzano. Nella suddivisione difficile, tutti e sette i modelli leader hanno ottenuto uno 0,0% di Pass^3 nei compiti funzionali, mentre hanno raggiunto una media del 45,0% nelle valutazioni letterali delle credenze. L'analisi ha rivelato che il 93% dei fallimenti derivava da problemi di coordinazione epistemica, come la trattenuta di informazioni, sottolineando una notevole disparità tra ToM letterale e funzionale nei sistemi AI esistenti.

Fatti principali

EnactToM è un benchmark in evoluzione per la Teoria della Mente funzionale in agenti incarnati.
Consiste in 300 compiti multi-agente in un ambiente domestico 3D.
I compiti coinvolgono osservabilità parziale, informazioni private e comunicazione vincolata.
Tutti e sette i modelli di frontiera hanno ottenuto uno 0,0% di Pass^3 nella suddivisione difficile per il completamento di compiti funzionali.
I modelli hanno raggiunto una media del 45,0% nei test di credenza letterale.
Il 93% dei fallimenti è stato dovuto a rotture nella coordinazione epistemica.
Vengono generati nuovi compiti per aumentare la difficoltà man mano che i modelli migliorano.
Il benchmark è formalmente verificato per risolvibilità e profondità epistemica.

Il benchmark EnactToM testa la Teoria della Mente funzionale negli agenti AI

Fatti principali

Entità

Istituzioni

Fonti