MGSM-Pro: Nuovo Benchmark per il Ragionamento Matematico Multilingue nei LLM

other · 2026-04-30

I ricercatori hanno introdotto MGSM-Pro, un benchmark multilingue per il ragionamento matematico che estende il dataset MGSM con l'approccio di istanziazione di GSM-Symbolic. Il dataset fornisce cinque variazioni per domanda modificando nomi, cifre e contesto irrilevante. Le valutazioni in nove lingue rivelano significativi cali di performance per le lingue a basse risorse sulle variazioni di cifre. La robustezza dei modelli nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse. Sono stati testati modelli proprietari come Gemini 2.5 Flash e GPT-4.1.

Fatti principali

MGSM-Pro estende MGSM con l'approccio GSM-Symbolic
Cinque istanziazioni per domanda variando nomi, cifre e contesto irrilevante
Valutato in nove lingue
Le lingue a basse risorse subiscono grandi cali di performance sulle variazioni di cifre
La robustezza nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse
I modelli proprietari testati includono Gemini 2.5 Flash e GPT-4.1
Pubblicato su arXiv con ID 2601.21225
Tipo di annuncio: replace-cross

MGSM-Pro: Nuovo Benchmark per il Ragionamento Matematico Multilingue nei LLM

Fatti principali

Entità

Istituzioni

Fonti