MentalMap Benchmark Rivela il Precipizio del Ragionamento Spaziale degli LLM tra le Lingue
Un recente sforzo di ricerca ha svelato MentalMap, un benchmark multilingue progettato per valutare i modelli spaziali del mondo all'interno dei grandi modelli linguistici (LLM). Questo benchmark è organizzato in una gerarchia di capacità a sei livelli (L0-L5), che vanno dai fatti spaziali di base alla creazione di grafi mondiali generativi, e valuta quattro dimensioni diagnostiche: sistema di riferimento, bias di direzione di lettura, allocazione dello sforzo di ragionamento e allucinazione. Sviluppato utilizzando 100 scene domestiche ProcTHOR, MentalMap comprende otto lingue diverse e un controllo a testo strutturato, con 39 famiglie di compiti distribuite su 1.950 celle di valutazione. Testando tredici LLM di varie scale e famiglie, i ricercatori hanno scoperto un precipizio di ragionamento universale a L3, rivelando che nessun modello mantiene nemmeno la metà delle sue prestazioni L0 nel ragionamento di punto di vista quando l'accuratezza atomica di base supera il 40%. Questo studio mette in discussione l'affermazione che gli LLM possano formare modelli spaziali interni robusti solo dal testo e sottolinea i limiti del trasferimento linguistico.
Fatti principali
- MentalMap è un benchmark diagnostico multilingue per il ragionamento spaziale negli LLM.
- Ha una gerarchia di capacità a sei livelli (L0-L5) dai fatti atomici alla costruzione di grafi mondiali generativi.
- Quattro assi diagnostici: sistema di riferimento, bias di direzione di lettura, allocazione dello sforzo di ragionamento e allucinazione.
- Costruito da 100 scene domestiche ProcTHOR.
- Copre otto lingue tipologicamente diverse più un controllo a testo strutturato.
- Contiene 39 famiglie di compiti distribuite su 1.950 celle di valutazione.
- Tredici LLM sono stati valutati attraverso scale e famiglie di modelli.
- È stato identificato un precipizio di ragionamento universale a L3: nessun modello mantiene la metà delle prestazioni L0 nel ragionamento di punto di vista quando l'accuratezza atomica di base supera il 40%.
Entità
—