REFT: La diversificazione del primo token potenzia la diversità dei rollout in RLVR
I ricercatori identificano il primo token dopo il marker di ragionamento come una posizione critica ma trascurata per ampliare la diversità dei rollout nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). La distribuzione del primo token della policy mostra un fenomeno di picco netto ma disaccoppiato dalla correttezza, consentendo una copertura più ampia senza alterare i segnali di correttezza. Introducono REFT (Rollout Exploration with First-Token Diversification), un metodo leggero che campiona uniformemente i primi token tra i primi N candidati della policy. Questo approccio affronta un collo di bottiglia centrale in RLVR, dove la diversità dei rollout è fondamentale per addestrare modelli di ragionamento senza traiettorie etichettate. Il paper è disponibile su arXiv con ID 2605.28295.
Fatti principali
- REFT sta per Rollout Exploration with First-Token Diversification
- Il metodo si concentra sul primo token dopo il marker di ragionamento
- La distribuzione del primo token è fortemente concentrata ma disaccoppiata dalla correttezza
- REFT campiona uniformemente i primi token tra i primi N candidati
- RLVR addestra modelli di ragionamento senza traiettorie etichettate
- La diversità dei rollout è un collo di bottiglia centrale in RLVR
- I metodi esistenti utilizzano regolazioni di temperatura, prefisso o selezione dei rollout
- Paper disponibile su arXiv: 2605.28295
Entità
Istituzioni
- arXiv