Il benchmark EnactToM testa la Teoria della Mente funzionale negli agenti AI
Un nuovo benchmark chiamato EnactToM è stato sviluppato dai ricercatori per valutare la Teoria della Mente (ToM) funzionale in agenti AI incarnati. A differenza dei benchmark tradizionali che si concentrano su indagini dirette sulle credenze, EnactToM valuta quanto bene gli agenti possono agire basandosi su credenze implicite in contesti multi-agente. Questo benchmark presenta 300 compiti all'interno di un ambiente domestico 3D caratterizzato da visibilità limitata, dati privati e comunicazione ristretta. Ogni compito è rigorosamente validato per risolvibilità e profondità epistemica necessaria, con compiti aggiuntivi creati per aumentare i livelli di sfida man mano che i modelli avanzano. Nella suddivisione difficile, tutti e sette i modelli leader hanno ottenuto uno 0,0% di Pass^3 nei compiti funzionali, mentre hanno raggiunto una media del 45,0% nelle valutazioni letterali delle credenze. L'analisi ha rivelato che il 93% dei fallimenti derivava da problemi di coordinazione epistemica, come la trattenuta di informazioni, sottolineando una notevole disparità tra ToM letterale e funzionale nei sistemi AI esistenti.
Fatti principali
- EnactToM è un benchmark in evoluzione per la Teoria della Mente funzionale in agenti incarnati.
- Consiste in 300 compiti multi-agente in un ambiente domestico 3D.
- I compiti coinvolgono osservabilità parziale, informazioni private e comunicazione vincolata.
- Tutti e sette i modelli di frontiera hanno ottenuto uno 0,0% di Pass^3 nella suddivisione difficile per il completamento di compiti funzionali.
- I modelli hanno raggiunto una media del 45,0% nei test di credenza letterale.
- Il 93% dei fallimenti è stato dovuto a rotture nella coordinazione epistemica.
- Vengono generati nuovi compiti per aumentare la difficoltà man mano che i modelli migliorano.
- Il benchmark è formalmente verificato per risolvibilità e profondità epistemica.
Entità
Istituzioni
- arXiv