Messe in discussione le carenze statistiche del benchmark GSM-Symbolic
Una nuova critica mette in discussione la conclusione del benchmark GSM-Symbolic secondo cui i LLM mancano di ragionamento. Rivalutando 20 modelli open-weight con modelli lineari misti generalizzati, i ricercatori hanno scoperto che solo la metà mostrava cali significativi delle prestazioni. Il dataset principale presenta anche una distribuzione spostata di interi più grandi, contraddicendo le affermazioni originali.
Fatti principali
- Il benchmark GSM-Symbolic ha riportato cali di prestazioni in 25 LLM
- La rivalutazione ha utilizzato modelli lineari misti generalizzati con effetti casuali per domanda
- Solo la metà dei 20 modelli open-weight ha mostrato cambiamenti statisticamente significativi
- Il dataset principale di GSM-Symbolic ha una distribuzione spostata di interi più grandi (statistica K-S = 0,12, p < 0,001)
- Il controllo dell'effetto dei numeri grandi spiega la significatività in circa la metà dei casi rimanenti
Entità
—