La supervisione di processo verificabile migliora il ragionamento dei modelli linguistici
Un team di ricercatori ha introdotto la supervisione di processo verificabile (VPS), un framework progettato per migliorare sia l'accuratezza delle previsioni che la qualità del ragionamento nei modelli linguistici dopo l'addestramento. A differenza dell'apprendimento per rinforzo che si concentra esclusivamente sui risultati finali e rischia di deteriorare il ragionamento, la VPS impiega il fine-tuning supervisionato per favorire formati di ragionamento strutturati. Questo approccio consente l'estrazione sintattica di affermazioni intermedie, che vengono poi valutate rispetto a segnali di verità di base per ricompense a livello di processo. Inoltre, un sistema di ponderazione adattivo delle ricompense enfatizza i componenti con i maggiori errori residui, creando efficacemente un curriculum implicito. Il metodo è stato testato nel dominio degli scacchi. L'articolo completo è disponibile su arXiv.
Fatti principali
- La VPS ottimizza congiuntamente l'accuratezza delle previsioni e la qualità del ragionamento.
- Il RL standard con ricompense verificabili può degradare il ragionamento mentre migliora l'accuratezza del compito.
- Il fine-tuning supervisionato induce un formato di ragionamento strutturato.
- Le ricompense a livello di processo derivano da affermazioni intermedie valutate rispetto a segnali di verità di base.
- La ponderazione adattiva delle ricompense dà priorità ai componenti con i maggiori errori.
- La valutazione è stata effettuata sugli scacchi.
- L'articolo è disponibile su arXiv.
- ID arXiv: 2605.12519
Entità
Istituzioni
- arXiv