Il Bayesian Belief Tracking migliora l'affidabilità del ragionamento nei LLM
Un recente preprint su arXiv (2605.27712) presenta il Sequential Bayesian Belief Tracking (SBBT), una tecnica progettata per valutare l'affidabilità di percorsi di ragionamento estesi generati da grandi modelli linguistici prima di ottenere le risposte finali. Questo approccio utilizza osservazioni prefix-safe per determinare P(y=1 | o_{1:t}), che riflette la probabilità di successo basata su output incompleti. SBBT combina vari elementi, tra cui punteggi scalari, marcatori testuali, segnali di auto-verifica, cluster nascosti, sonde di pooling dei token e caratteristiche di traiettoria latente, aggiornando continuamente una credenza a due stati. I test condotti su MATH-500, GSM8K, AIME 2025 e RIMO-N indicano che i miglioramenti nella qualità della probabilità (punteggio Brier) spesso derivano dal solo SBBT basato su punteggi, mentre i miglioramenti nell'AUROC richiedono evidenze strutturali oltre ai benchmark prefix-safe robusti. Nel contesto matematico più impegnativo, le osservazioni strutturali ottengono un +0,110 AUROC rispetto ai benchmark prefix-safe convenzionali. Un audit dei classificatori con stesso prefisso verifica che i marcatori testuali di MATH-500 e i segnali di auto-verifica di RIMO-N rimangono efficaci.
Fatti principali
- arXiv:2605.27712 introduce il Sequential Bayesian Belief Tracking (SBBT) per l'affidabilità del ragionamento nei LLM.
- SBBT stima la probabilità di successo condizionata al prefisso P(y=1 | o_{1:t}).
- Il metodo utilizza osservazioni prefix-safe e aggiornamenti ricorsivi della credenza a due stati.
- Unifica punteggi scalari, testo, marcatori di auto-verifica, cluster nascosti, sonde di pooling dei token e caratteristiche di traiettoria latente.
- Testato su MATH-500, GSM8K, AIME 2025 e RIMO-N.
- Il solo SBBT basato su punteggi migliora il punteggio Brier; i guadagni in AUROC richiedono evidenze strutturali.
- Le osservazioni strutturali ottengono +0,110 AUROC rispetto ai baselines prefix-safe in matematica difficile.
- L'audit dei classificatori con stesso prefisso mostra segnali positivi per il testo di MATH-500 e l'auto-verifica di RIMO-N.
Entità
Istituzioni
- arXiv