GuardedRepair migliora l'accuratezza del ragionamento matematico degli LLM

ai-technology · 2026-05-26

GuardedRepair, un framework di nuova concezione, affronta i rischi disomogenei associati alle riparazioni post-hoc nel ragionamento matematico degli LLM. Mentre correggere una traccia errata è vantaggioso, alterarne una corretta potrebbe essere dannoso. Questo sistema opera in un contesto di sostituzione selettiva, valutando se un candidato riparato è più affidabile del mantenere la traccia originale in cache. GuardedRepair integra controlli simbolici leggeri, valutazioni del rischio semantico superficiale, generazione limitata di candidati e strategie di accettazione cautelative. Sul set di test completo GSM8K, dove il ragionatore iniziale ha un tasso di accuratezza del 95,60%, GuardedRepair migliora l'accuratezza finale al 96,89%, correggendo 17 dei 58 errori rimanenti senza compromettere alcuna traccia corretta.

Fatti principali

GuardedRepair è un framework di riparazione best-of-N protetto per il ragionamento matematico degli LLM.
Diagnostica le tracce di ragionamento in cache e attiva selettivamente la riparazione.
Accetta candidati che modificano la risposta solo quando le verifiche deterministiche di controllo supportano la sostituzione.
Il framework combina controlli simbolici, diagnostica del rischio semantico, generazione limitata di candidati e politiche di accettazione conservative.
Testato sul dataset GSM8K con accuratezza iniziale del 95,60%.
L'accuratezza finale è migliorata al 96,89%.
Ha corretto 17 dei 58 errori rimanenti senza rompere tracce corrette.
L'articolo è disponibile su arXiv con ID 2605.24613.

GuardedRepair migliora l'accuratezza del ragionamento matematico degli LLM

Fatti principali

Entità

Istituzioni

Fonti