Il Framework GeoRepEval Valuta la Robustezza dei Modelli Linguistici su Diverse Rappresentazioni di Problemi Geometrici
I ricercatori hanno creato un nuovo framework di valutazione chiamato GeoRepEval per valutare le prestazioni dei grandi modelli linguistici (LLM) su problemi di geometria presentati in vari formati matematici. Hanno osservato che gli attuali benchmark spesso valutano gli LLM con strutture di problemi fisse, trascurando i fallimenti derivanti da diverse rappresentazioni. GeoRepEval testa undici modelli linguistici su 158 problemi di geometria appositamente selezionati, esaminandoli attraverso formati paralleli come rappresentazioni euclidee, coordinate e vettoriali. Il framework si concentra su tre criteri principali: correttezza, invarianza e coerenza a livello di problema, utilizzando varie tecniche statistiche. Tra queste c'è la metrica Invariance@3, che scompone l'accuratezza in componenti robuste e fragili. I risultati rivelano una significativa variabilità nelle prestazioni degli LLM in base all'espressione del problema. Questa ricerca, documentata nel documento arXiv:2604.16421v1, colma una lacuna critica nella comprensione della robustezza dei modelli in contesti matematici.
Fatti principali
- GeoRepEval valuta la robustezza dei modelli linguistici su diverse rappresentazioni di problemi geometrici
- Il framework misura correttezza, invarianza e coerenza a livello di problema
- Sono stati valutati undici grandi modelli linguistici su 158 problemi di geometria curati
- I benchmark esistenti presuppongono invarianza di rappresentazione con formati fissi
- I problemi possono essere espressi in forme euclidee, coordinate o vettoriali
- La metrica Invariance@3 scompone l'accuratezza in componenti robuste e fragili
- I metodi statistici includono intervalli di confidenza bootstrap e test di McNemar
- L'identificatore del documento è arXiv:2604.16421v1 con annuncio interdisciplinare
Entità
—