GeoLaux Valuta la Risoluzione di Problemi Geometrici nei MLLM con Ragionamento a Lungo Termine e Linee Ausiliarie
È stato lanciato un nuovo standard di valutazione denominato GeoLaux per misurare le capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni nell'affrontare sfide geometriche che coinvolgono ragionamenti complessi e la creazione di linee ausiliarie. Questo dataset comprende 2.186 problemi relativi a calcoli e dimostrazioni, con una media di 6,51 passaggi per soluzione e un massimo di 24 passaggi. Notevolmente, il 41,8% di queste sfide richiede linee ausiliarie, rappresentando un ostacolo significativo per i modelli esistenti. I ricercatori hanno valutato 23 MLLM di primo piano secondo cinque criteri, rivelando notevoli disparità di prestazioni. I modelli hanno ottenuto risultati considerevolmente peggiori sui problemi che richiedono molti passaggi, con 18 modelli che mostrano cali superiori al 50%. Pubblicato come arXiv:2508.06226v2, questo studio sottolinea le limitazioni degli attuali MLLM riguardo all'interpretazione dei diagrammi e all'applicazione delle conoscenze per ragionamenti geometrici intricati, evidenziando la necessità di progetti di modelli migliorati.
Fatti principali
- GeoLaux è un dataset di riferimento per valutare i MLLM sui problemi di geometria
- Contiene 2.186 problemi di calcolo e dimostrazione
- La lunghezza media della soluzione è di 6,51 passaggi con un massimo di 24 passaggi
- Il 41,8% dei problemi richiede la costruzione di linee ausiliarie
- Sono stati valutati 23 Modelli Linguistici Multimodali di Grandi Dimensioni leader
- 18 modelli hanno mostrato cali di prestazioni superiori al 50% sui problemi a lungo termine
- Pubblicato come arXiv:2508.06226v2
- Affronta la mancanza di valutazioni granulari per problemi geometrici a lungo termine
Entità
—