GeoSym127K: Un Framework Scalabile per il Ragionamento Geometrico Multimodale
Un gruppo di ricercatori ha lanciato GeoSym127K, un dataset completo progettato per migliorare il ragionamento geometrico multimodale. Questo progetto affronta le sfide osservate nei Grandi Modelli Multimodali (LMM), come le allucinazioni visive e la mancanza di dati di Catena di Pensiero (CoT). Il GeoSym Engine, un sistema neuro-simbolico automatizzato, utilizza una grammatica condizionale di tipo e un risolutore analitico SymGT per generare verità di base simboliche accurate, insieme a una pipeline di rendering per creare diagrammi precisi. Il dataset stesso include 51.000 immagini ad alta risoluzione, 127.000 domande con verità di base simboliche e 55.000 coppie QA CoT verificate per risposta, ordinate per difficoltà. Inoltre, GeoSym-Bench offre un set appositamente curato di 511 campioni complessi per una valutazione dettagliata, mostrando che GeoSym migliora le prestazioni in compiti di geometria basati su diagrammi e multi-step durante i test di fine-tuning supervisionato.
Fatti principali
- GeoSym127K è un dataset per il ragionamento geometrico multimodale.
- Affronta le allucinazioni visive e la mancanza di dati CoT precisi negli LMM.
- Il GeoSym Engine è un framework neuro-simbolico automatizzato.
- Utilizza una grammatica condizionale di tipo e il risolutore SymGT per verità di base simboliche.
- Il dataset include 51.000 immagini ad alta risoluzione e 127.000 domande.
- Contiene 55.000 coppie QA CoT verificate per risposta.
- GeoSym-Bench è un set curato da esperti di 511 campioni complessi.
- Il fine-tuning supervisionato mostra miglioramenti in compiti dipendenti da diagrammi e multi-step.
Entità
—