I LLM faticano con il calcolo esatto: PoT raggiunge la precisione perfetta
Una recente indagine pubblicata su arXiv esamina a fondo varie tecniche di prompting volte a ottenere calcoli precisi e deterministici nei Large Language Models (LLM). Questo studio valuta Chain-of-Thought (CoT), Least-to-Most decomposition, Program-of-Thought (PoT) e Self-Consistency (SC) in compiti come il conteggio binario, l'identificazione della sottostringa più lunga e la valutazione aritmetica. Per un'analisi controllata, è stato creato un dataset sintetico con vari prompt in linguaggio naturale. I risultati rivelano che gli approcci di prompting convenzionali producono solo una moderata accuratezza nei compiti legati alle sequenze. Mentre CoT mostra lievi miglioramenti, Least-to-Most incontra problemi di accumulo di errori. Al contrario, PoT raggiunge una precisione impeccabile generando codice eseguibile. La ricerca sottolinea i limiti degli attuali LLM nei calcoli esatti e la promessa delle tecniche basate sull'esecuzione.
Fatti principali
- Il paper arXiv 2605.03227 valuta le strategie di prompting per il calcolo deterministico nei LLM.
- Metodi testati: Chain-of-Thought, Least-to-Most, Program-of-Thought, Self-Consistency.
- Compiti: conteggio binario, rilevamento della sottostringa più lunga, valutazione aritmetica.
- È stato introdotto un dataset sintetico con diverse istruzioni in linguaggio naturale.
- I metodi di prompting standard raggiungono solo una moderata accuratezza nei compiti basati su sequenze.
- CoT fornisce un miglioramento limitato; Least-to-Most soffre di accumulo di errori.
- PoT raggiunge una precisione perfetta generando codice eseguibile.
- Lo studio sottolinea i limiti dei LLM per il calcolo esatto.
Entità
Istituzioni
- arXiv