Il framework CASPO migliora l'affidabilità del ragionamento nei LLM

ai-technology · 2026-05-11

I ricercatori hanno introdotto un nuovo framework chiamato CASPO (Confidence-Aware Step-wise Preference Optimization) che migliora l'affidabilità dei modelli di ragionamento di grandi dimensioni sincronizzando la confidenza a livello di token con l'accuratezza logica a ogni passo. Questo framework, descritto in arXiv:2605.07353, utilizza l'ottimizzazione iterativa delle preferenze dirette e non richiede un modello di ricompensa esterno o verificatori. Una tecnica supplementare, Confidence-aware Thought (CaT), semplifica i percorsi di ragionamento incerti durante l'inferenza con un ritardo minimo. I test su dieci benchmark e varie famiglie di modelli dimostrano miglioramenti significativi sia nell'affidabilità del ragionamento che nella velocità di inferenza. CASPO è compatibile con Qwen3-8B-Base e supera i baseline di tree-search in AIME'24 e AIME'25 senza la necessità di campionamento aggiuntivo.

Fatti principali

CASPO allinea la confidenza a livello di token con la correttezza logica passo-passo.
Utilizza l'ottimizzazione iterativa delle preferenze dirette senza un modello di ricompensa separato.
CaT pota i rami di ragionamento incerti durante l'inferenza con latenza O(V).
Testato su dieci benchmark e molteplici famiglie di modelli.
Scalabile a Qwen3-8B-Base.
Supera i baseline di tree-search su AIME'24 e AIME'25.
Nessun verificatore esterno o campionamento massiccio richiesto.
Pubblicato su arXiv con ID 2605.07353.

Il framework CASPO migliora l'affidabilità del ragionamento nei LLM

Fatti principali

Entità

Istituzioni

Fonti