ARTFEED — Contemporary Art Intelligence

GuardedRepair migliora l'accuratezza del ragionamento matematico degli LLM

ai-technology · 2026-05-26

GuardedRepair, un framework di nuova concezione, affronta i rischi disomogenei associati alle riparazioni post-hoc nel ragionamento matematico degli LLM. Mentre correggere una traccia errata è vantaggioso, alterarne una corretta potrebbe essere dannoso. Questo sistema opera in un contesto di sostituzione selettiva, valutando se un candidato riparato è più affidabile del mantenere la traccia originale in cache. GuardedRepair integra controlli simbolici leggeri, valutazioni del rischio semantico superficiale, generazione limitata di candidati e strategie di accettazione cautelative. Sul set di test completo GSM8K, dove il ragionatore iniziale ha un tasso di accuratezza del 95,60%, GuardedRepair migliora l'accuratezza finale al 96,89%, correggendo 17 dei 58 errori rimanenti senza compromettere alcuna traccia corretta.

Fatti principali

  • GuardedRepair è un framework di riparazione best-of-N protetto per il ragionamento matematico degli LLM.
  • Diagnostica le tracce di ragionamento in cache e attiva selettivamente la riparazione.
  • Accetta candidati che modificano la risposta solo quando le verifiche deterministiche di controllo supportano la sostituzione.
  • Il framework combina controlli simbolici, diagnostica del rischio semantico, generazione limitata di candidati e politiche di accettazione conservative.
  • Testato sul dataset GSM8K con accuratezza iniziale del 95,60%.
  • L'accuratezza finale è migliorata al 96,89%.
  • Ha corretto 17 dei 58 errori rimanenti senza rompere tracce corrette.
  • L'articolo è disponibile su arXiv con ID 2605.24613.

Entità

Istituzioni

  • arXiv

Fonti