GeoLaux Valuta la Risoluzione di Problemi Geometrici nei MLLM con Ragionamento a Lungo Termine e Linee Ausiliarie

ai-technology · 2026-04-22

È stato lanciato un nuovo standard di valutazione denominato GeoLaux per misurare le capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni nell'affrontare sfide geometriche che coinvolgono ragionamenti complessi e la creazione di linee ausiliarie. Questo dataset comprende 2.186 problemi relativi a calcoli e dimostrazioni, con una media di 6,51 passaggi per soluzione e un massimo di 24 passaggi. Notevolmente, il 41,8% di queste sfide richiede linee ausiliarie, rappresentando un ostacolo significativo per i modelli esistenti. I ricercatori hanno valutato 23 MLLM di primo piano secondo cinque criteri, rivelando notevoli disparità di prestazioni. I modelli hanno ottenuto risultati considerevolmente peggiori sui problemi che richiedono molti passaggi, con 18 modelli che mostrano cali superiori al 50%. Pubblicato come arXiv:2508.06226v2, questo studio sottolinea le limitazioni degli attuali MLLM riguardo all'interpretazione dei diagrammi e all'applicazione delle conoscenze per ragionamenti geometrici intricati, evidenziando la necessità di progetti di modelli migliorati.

Fatti principali

GeoLaux è un dataset di riferimento per valutare i MLLM sui problemi di geometria
Contiene 2.186 problemi di calcolo e dimostrazione
La lunghezza media della soluzione è di 6,51 passaggi con un massimo di 24 passaggi
Il 41,8% dei problemi richiede la costruzione di linee ausiliarie
Sono stati valutati 23 Modelli Linguistici Multimodali di Grandi Dimensioni leader
18 modelli hanno mostrato cali di prestazioni superiori al 50% sui problemi a lungo termine
Pubblicato come arXiv:2508.06226v2
Affronta la mancanza di valutazioni granulari per problemi geometrici a lungo termine

Entità

—

Fonti

arXiv cs.AI — 2026-04-22