MGSM-Pro: Nuovo Benchmark per il Ragionamento Matematico Multilingue nei LLM
I ricercatori hanno introdotto MGSM-Pro, un benchmark multilingue per il ragionamento matematico che estende il dataset MGSM con l'approccio di istanziazione di GSM-Symbolic. Il dataset fornisce cinque variazioni per domanda modificando nomi, cifre e contesto irrilevante. Le valutazioni in nove lingue rivelano significativi cali di performance per le lingue a basse risorse sulle variazioni di cifre. La robustezza dei modelli nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse. Sono stati testati modelli proprietari come Gemini 2.5 Flash e GPT-4.1.
Fatti principali
- MGSM-Pro estende MGSM con l'approccio GSM-Symbolic
- Cinque istanziazioni per domanda variando nomi, cifre e contesto irrilevante
- Valutato in nove lingue
- Le lingue a basse risorse subiscono grandi cali di performance sulle variazioni di cifre
- La robustezza nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse
- I modelli proprietari testati includono Gemini 2.5 Flash e GPT-4.1
- Pubblicato su arXiv con ID 2601.21225
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv