ARTFEED — Contemporary Art Intelligence

MentalMap Benchmark Rivela il Precipizio del Ragionamento Spaziale degli LLM tra le Lingue

ai-technology · 2026-05-28

Un recente sforzo di ricerca ha svelato MentalMap, un benchmark multilingue progettato per valutare i modelli spaziali del mondo all'interno dei grandi modelli linguistici (LLM). Questo benchmark è organizzato in una gerarchia di capacità a sei livelli (L0-L5), che vanno dai fatti spaziali di base alla creazione di grafi mondiali generativi, e valuta quattro dimensioni diagnostiche: sistema di riferimento, bias di direzione di lettura, allocazione dello sforzo di ragionamento e allucinazione. Sviluppato utilizzando 100 scene domestiche ProcTHOR, MentalMap comprende otto lingue diverse e un controllo a testo strutturato, con 39 famiglie di compiti distribuite su 1.950 celle di valutazione. Testando tredici LLM di varie scale e famiglie, i ricercatori hanno scoperto un precipizio di ragionamento universale a L3, rivelando che nessun modello mantiene nemmeno la metà delle sue prestazioni L0 nel ragionamento di punto di vista quando l'accuratezza atomica di base supera il 40%. Questo studio mette in discussione l'affermazione che gli LLM possano formare modelli spaziali interni robusti solo dal testo e sottolinea i limiti del trasferimento linguistico.

Fatti principali

  • MentalMap è un benchmark diagnostico multilingue per il ragionamento spaziale negli LLM.
  • Ha una gerarchia di capacità a sei livelli (L0-L5) dai fatti atomici alla costruzione di grafi mondiali generativi.
  • Quattro assi diagnostici: sistema di riferimento, bias di direzione di lettura, allocazione dello sforzo di ragionamento e allucinazione.
  • Costruito da 100 scene domestiche ProcTHOR.
  • Copre otto lingue tipologicamente diverse più un controllo a testo strutturato.
  • Contiene 39 famiglie di compiti distribuite su 1.950 celle di valutazione.
  • Tredici LLM sono stati valutati attraverso scale e famiglie di modelli.
  • È stato identificato un precipizio di ragionamento universale a L3: nessun modello mantiene la metà delle prestazioni L0 nel ragionamento di punto di vista quando l'accuratezza atomica di base supera il 40%.

Entità

Fonti