TraceLift: Addestramento di Pianificatori Ragionanti con Ricompense Basate sull'Esecutore
Il nuovo framework di apprendimento per rinforzo, TraceLift, affronta le carenze dell'affidarsi esclusivamente alla correttezza delle risposte finali per migliorare il ragionamento nei grandi modelli linguistici. Questo metodo considera il ragionamento come un prodotto temporaneo e consumabile. In un framework pianificatore-esecutore, un pianificatore genera tracce di ragionamento etichettate, che vengono poi elaborate da un esecutore statico per produrre un output finale per il feedback di verifica. Una ricompensa basata sulle prestazioni dell'esecutore amplifica un punteggio del Modello di Ricompensa del Ragionamento (RM) basato su rubriche, moltiplicandolo per il miglioramento osservato sullo stesso esecutore, premiando le tracce che aumentano l'efficienza dell'esecutore. Questo approccio mira a generare ragionamenti accurati e affidabili utili per i modelli downstream, evitando scorciatoie e output intermedi errati. Il documento è disponibile su arXiv con ID 2605.03862.
Fatti principali
- TraceLift è un framework di addestramento pianificatore-esecutore per grandi modelli linguistici.
- Utilizza ricompense basate sull'esecutore per modellare le tracce di ragionamento intermedie.
- La ricompensa moltiplica un punteggio del Modello di Ricompensa del Ragionamento basato su rubriche per il miglioramento su un esecutore congelato.
- L'approccio tratta il ragionamento come un artefatto consumabile per i modelli downstream.
- Mira a produrre tracce di ragionamento fedeli e affidabili.
- Il documento è su arXiv con ID 2605.03862.
- Il metodo affronta i limiti dei segnali di ricompensa basati solo sul risultato finale.
- Evita scorciatoie e stati intermedi errati nei sistemi multi-step.
Entità
Istituzioni
- arXiv