Il framework CASPO migliora l'affidabilità del ragionamento nei LLM
I ricercatori hanno introdotto un nuovo framework chiamato CASPO (Confidence-Aware Step-wise Preference Optimization) che migliora l'affidabilità dei modelli di ragionamento di grandi dimensioni sincronizzando la confidenza a livello di token con l'accuratezza logica a ogni passo. Questo framework, descritto in arXiv:2605.07353, utilizza l'ottimizzazione iterativa delle preferenze dirette e non richiede un modello di ricompensa esterno o verificatori. Una tecnica supplementare, Confidence-aware Thought (CaT), semplifica i percorsi di ragionamento incerti durante l'inferenza con un ritardo minimo. I test su dieci benchmark e varie famiglie di modelli dimostrano miglioramenti significativi sia nell'affidabilità del ragionamento che nella velocità di inferenza. CASPO è compatibile con Qwen3-8B-Base e supera i baseline di tree-search in AIME'24 e AIME'25 senza la necessità di campionamento aggiuntivo.
Fatti principali
- CASPO allinea la confidenza a livello di token con la correttezza logica passo-passo.
- Utilizza l'ottimizzazione iterativa delle preferenze dirette senza un modello di ricompensa separato.
- CaT pota i rami di ragionamento incerti durante l'inferenza con latenza O(V).
- Testato su dieci benchmark e molteplici famiglie di modelli.
- Scalabile a Qwen3-8B-Base.
- Supera i baseline di tree-search su AIME'24 e AIME'25.
- Nessun verificatore esterno o campionamento massiccio richiesto.
- Pubblicato su arXiv con ID 2605.07353.
Entità
Istituzioni
- arXiv