ARTFEED — Contemporary Art Intelligence

MGSM-Pro: Nuovo Benchmark per il Ragionamento Matematico Multilingue nei LLM

other · 2026-04-30

I ricercatori hanno introdotto MGSM-Pro, un benchmark multilingue per il ragionamento matematico che estende il dataset MGSM con l'approccio di istanziazione di GSM-Symbolic. Il dataset fornisce cinque variazioni per domanda modificando nomi, cifre e contesto irrilevante. Le valutazioni in nove lingue rivelano significativi cali di performance per le lingue a basse risorse sulle variazioni di cifre. La robustezza dei modelli nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse. Sono stati testati modelli proprietari come Gemini 2.5 Flash e GPT-4.1.

Fatti principali

  • MGSM-Pro estende MGSM con l'approccio GSM-Symbolic
  • Cinque istanziazioni per domanda variando nomi, cifre e contesto irrilevante
  • Valutato in nove lingue
  • Le lingue a basse risorse subiscono grandi cali di performance sulle variazioni di cifre
  • La robustezza nelle lingue ad alte risorse non si trasferisce a quelle a basse risorse
  • I modelli proprietari testati includono Gemini 2.5 Flash e GPT-4.1
  • Pubblicato su arXiv con ID 2601.21225
  • Tipo di annuncio: replace-cross

Entità

Istituzioni

  • arXiv

Fonti