I LLM faticano con il calcolo esatto: PoT raggiunge la precisione perfetta

ai-technology · 2026-05-07

Una recente indagine pubblicata su arXiv esamina a fondo varie tecniche di prompting volte a ottenere calcoli precisi e deterministici nei Large Language Models (LLM). Questo studio valuta Chain-of-Thought (CoT), Least-to-Most decomposition, Program-of-Thought (PoT) e Self-Consistency (SC) in compiti come il conteggio binario, l'identificazione della sottostringa più lunga e la valutazione aritmetica. Per un'analisi controllata, è stato creato un dataset sintetico con vari prompt in linguaggio naturale. I risultati rivelano che gli approcci di prompting convenzionali producono solo una moderata accuratezza nei compiti legati alle sequenze. Mentre CoT mostra lievi miglioramenti, Least-to-Most incontra problemi di accumulo di errori. Al contrario, PoT raggiunge una precisione impeccabile generando codice eseguibile. La ricerca sottolinea i limiti degli attuali LLM nei calcoli esatti e la promessa delle tecniche basate sull'esecuzione.

Fatti principali

Il paper arXiv 2605.03227 valuta le strategie di prompting per il calcolo deterministico nei LLM.
Metodi testati: Chain-of-Thought, Least-to-Most, Program-of-Thought, Self-Consistency.
Compiti: conteggio binario, rilevamento della sottostringa più lunga, valutazione aritmetica.
È stato introdotto un dataset sintetico con diverse istruzioni in linguaggio naturale.
I metodi di prompting standard raggiungono solo una moderata accuratezza nei compiti basati su sequenze.
CoT fornisce un miglioramento limitato; Least-to-Most soffre di accumulo di errori.
PoT raggiunge una precisione perfetta generando codice eseguibile.
Lo studio sottolinea i limiti dei LLM per il calcolo esatto.

I LLM faticano con il calcolo esatto: PoT raggiunge la precisione perfetta

Fatti principali

Entità

Istituzioni

Fonti