ARTFEED — Contemporary Art Intelligence

GSM-SEM: Un Nuovo Benchmark per la Robustezza del Ragionamento Matematico

other · 2026-05-11

I ricercatori hanno introdotto GSM-SEM, un framework stocastico per generare varianti semanticamente diverse di benchmark di ragionamento matematico come GSM8K. I benchmark tradizionali soffrono di memorizzazione a causa di set di test fissi, e le varianti di robustezza esistenti applicano solo perturbazioni superficiali. GSM-SEM modifica entità, attributi e relazioni nelle dichiarazioni dei problemi, alterando i fatti sottostanti per richiedere ai modelli di ricalcolare le soluzioni in nuove condizioni. Preserva i calcoli originali e la difficoltà, generando varianti fresche a ogni esecuzione senza necessità di ri-annotazione. Questo framework mira a fornire una misura più affidabile della vera capacità di ragionamento, prevenendo l'overfitting su set di dati statici.

Fatti principali

  • GSM-SEM è un framework riutilizzabile e stocastico per generare varianti di benchmark semanticamente diverse.
  • Perturba le dichiarazioni dei problemi modificando entità, attributi e/o relazioni.
  • Il framework altera frequentemente i fatti sottostanti, richiedendo ai modelli di ricalcolare le soluzioni.
  • La generazione è vincolata a preservare i calcoli/risposte originali e la difficoltà approssimativa del problema.
  • GSM-SEM genera varianti fresche a ogni esecuzione senza richiedere ri-annotazione.
  • Affronta i problemi di memorizzazione in benchmark popolari come GSM8K.
  • Le varianti di robustezza esistenti applicano solo perturbazioni superficiali come parafrasi o scambi di numeri.
  • Il framework introduce una varianza semantica sostanzialmente maggiore rispetto agli approcci precedenti.

Entità

Istituzioni

  • arXiv

Fonti