Gli MLLM affrontano l'illusione cartesiana nei compiti di ragionamento spaziale
Un nuovo articolo su arXiv (2605.18194) mette in luce una limitazione fondamentale dei modelli linguistici multimodali di grandi dimensioni (MLLM): la loro intelligenza spaziale è ostacolata da un'illusione cartesiana, ovvero si basano su distribuzioni di probabilità testuali piuttosto che su una comprensione topologica 3D fondata. Questa carenza diventa critica in ambienti multi-agente che richiedono una Teoria della Mente (ToM) di secondo ordine, dove un agente deve inferire le credenze di un altro agente basandosi sul suo orientamento fisico e sui limiti sensoriali. Gli autori esplorano questi limiti con un nuovo compito audio-visivo: l'Agente A prevede la stima dell'Agente B sulla posizione di A. Per affrontare questo problema, propongono un modulo di collo di bottiglia sensoriale epistemico che evita trasformazioni di coordinate rigide, utilizzando invece un meccanismo di ancoraggio. La ricerca evidenzia che gli attuali MLLM mancano di ragionamento spaziale incarnato, essenziale per compiti come la navigazione e l'interazione uomo-robot.
Fatti principali
- L'articolo arXiv:2605.18194 introduce il concetto di 'illusione cartesiana' negli MLLM.
- Gli MLLM mancano di una comprensione topologica 3D fondata per il ragionamento spaziale.
- La limitazione è esposta in ambienti multi-agente che richiedono una Teoria della Mente di secondo ordine.
- Un nuovo compito audio-visivo richiede che l'Agente A preveda la stima dell'Agente B sulla posizione di A.
- La soluzione proposta è un modulo di collo di bottiglia sensoriale epistemico.
- Il modulo abbandona trasformazioni di coordinate rigide e basate su regole.
- Viene introdotto un meccanismo di ancoraggio come parte della soluzione.
- La ricerca si concentra sull'intelligenza spaziale incarnata negli MLLM.
Entità
Istituzioni
- arXiv