MathNet Dataset Lanciato come Benchmark Globale per il Ragionamento Matematico nei Modelli di IA
Un nuovo benchmark multimodale, MathNet, mira a valutare il ragionamento matematico nei modelli generativi e nei sistemi di recupero basati su embedding. Questo dataset comprende 30.676 problemi redatti da esperti, con soluzioni provenienti da 47 paesi e disponibili in 17 lingue. I problemi derivano da due decenni di competizioni matematiche di livello olimpico, abbracciando vari campi della matematica. MathNet facilita tre distinte attività: Risoluzione di Problemi, Recupero Consapevole della Matematica e Risoluzione di Problemi Aumentata dal Recupero. Inoltre, è stato creato un benchmark di recupero, costituito da coppie di problemi matematicamente equivalenti e strutturalmente simili curate da esperti. I benchmark precedenti sono stati limitati in termini di dimensioni, lingua e varietà di compiti, presentando sfide significative per i modelli linguistici e multimodali di grandi dimensioni. I risultati sperimentali rivelano che anche i modelli più avanzati incontrano difficoltà con queste attività.
Fatti principali
- MathNet è un benchmark multimodale per il ragionamento matematico
- Contiene 30.676 problemi redatti da esperti con soluzioni
- Copre 47 paesi e 17 lingue
- Abbraccia due decenni di competizioni matematiche di livello olimpico
- Supporta tre attività: Risoluzione di Problemi, Recupero Consapevole della Matematica e Risoluzione di Problemi Aumentata dal Recupero
- Include un benchmark di recupero con coppie di problemi matematicamente equivalenti
- La risoluzione di problemi matematici rimane impegnativa per i grandi modelli linguistici
- I benchmark esistenti sono limitati in dimensioni, copertura linguistica e diversità di compiti
Entità
—