Messe in discussione le carenze statistiche del benchmark GSM-Symbolic

other · 2026-05-28

Una nuova critica mette in discussione la conclusione del benchmark GSM-Symbolic secondo cui i LLM mancano di ragionamento. Rivalutando 20 modelli open-weight con modelli lineari misti generalizzati, i ricercatori hanno scoperto che solo la metà mostrava cali significativi delle prestazioni. Il dataset principale presenta anche una distribuzione spostata di interi più grandi, contraddicendo le affermazioni originali.

Fatti principali

Il benchmark GSM-Symbolic ha riportato cali di prestazioni in 25 LLM
La rivalutazione ha utilizzato modelli lineari misti generalizzati con effetti casuali per domanda
Solo la metà dei 20 modelli open-weight ha mostrato cambiamenti statisticamente significativi
Il dataset principale di GSM-Symbolic ha una distribuzione spostata di interi più grandi (statistica K-S = 0,12, p < 0,001)
Il controllo dell'effetto dei numeri grandi spiega la significatività in circa la metà dei casi rimanenti

Entità

—

Fonti

arXiv cs.AI — 2026-05-28