Testata la Robustezza del Ragionamento Matematico degli LLM con l'Esecuzione di Codice

ai-technology · 2026-05-27

Un nuovo studio valuta sistematicamente come i Large Language Models (LLM) gestiscono variazioni nei problemi matematici, confrontando ragionamento puro, esecuzione di codice a singolo colpo ed esecuzione iterativa di codice. Utilizzando 1.000 problemi dal dataset GSM-Symbolic, i ricercatori hanno testato Claude Haiku 4.5 su coppie di problemi originali e modificati. Il prompting chain-of-thought (CoT) si è dimostrato il più robusto, con un calo di accuratezza di soli 1,3 punti percentuali e l'1,8% dei problemi che hanno fallito. Lo studio, pubblicato su arXiv (2605.26414), sfida l'ipotesi che i metodi di esecuzione del codice migliorino la robustezza contro semplici cambiamenti come nomi o numeri diversi.

Fatti principali

Lo studio valuta tre approcci su 1.000 problemi del dataset GSM-Symbolic
Approcci: chain-of-thought (CoT), Program-Aided Language models (PAL), Step-by-Step Coding (SBSC)
Tutti i modelli testati su Claude Haiku 4.5
CoT è stato il più robusto con un calo di accuratezza di 1,3 punti percentuali
L'1,8% dei problemi ha fallito con CoT
I metodi di esecuzione del codice non hanno migliorato la robustezza come previsto
Pubblicato su arXiv con ID 2605.26414
Problemi modificati con semplici cambiamenti come nomi o numeri diversi

Testata la Robustezza del Ragionamento Matematico degli LLM con l'Esecuzione di Codice

Fatti principali

Entità

Istituzioni

Fonti