Testata la Robustezza del Ragionamento Matematico degli LLM con l'Esecuzione di Codice
Un nuovo studio valuta sistematicamente come i Large Language Models (LLM) gestiscono variazioni nei problemi matematici, confrontando ragionamento puro, esecuzione di codice a singolo colpo ed esecuzione iterativa di codice. Utilizzando 1.000 problemi dal dataset GSM-Symbolic, i ricercatori hanno testato Claude Haiku 4.5 su coppie di problemi originali e modificati. Il prompting chain-of-thought (CoT) si è dimostrato il più robusto, con un calo di accuratezza di soli 1,3 punti percentuali e l'1,8% dei problemi che hanno fallito. Lo studio, pubblicato su arXiv (2605.26414), sfida l'ipotesi che i metodi di esecuzione del codice migliorino la robustezza contro semplici cambiamenti come nomi o numeri diversi.
Fatti principali
- Lo studio valuta tre approcci su 1.000 problemi del dataset GSM-Symbolic
- Approcci: chain-of-thought (CoT), Program-Aided Language models (PAL), Step-by-Step Coding (SBSC)
- Tutti i modelli testati su Claude Haiku 4.5
- CoT è stato il più robusto con un calo di accuratezza di 1,3 punti percentuali
- L'1,8% dei problemi ha fallito con CoT
- I metodi di esecuzione del codice non hanno migliorato la robustezza come previsto
- Pubblicato su arXiv con ID 2605.26414
- Problemi modificati con semplici cambiamenti come nomi o numeri diversi
Entità
Istituzioni
- arXiv