Il Premio di Gruppo Lookahead Mitiga il Decadimento della Fedeltà di Supervisione nella Distillazione On-Policy
I ricercatori identificano il Decadimento della Fedeltà di Supervisione (SFD) come un collo di bottiglia critico nella distillazione on-policy, dove la confidenza dell'insegnante diminuisce all'aumentare della lunghezza dei prefissi dello studente, indebolendo i segnali correttivi. Propongono il Premio di Gruppo Lookahead (LGR) per valutare i token dello studente in base alla futura confidenza dell'insegnante, migliorando il ragionamento a catena lunga.
Fatti principali
- 1. arXiv:2605.30833
- 2. La distillazione on-policy utilizza il feedback dell'insegnante a livello di token su traiettorie generate dallo studente.
- 3. Il Decadimento della Fedeltà di Supervisione (SFD) riduce la confidenza dell'insegnante con prefissi dello studente più lunghi.
- 4. SFD causa la deriva dello studente in catene di ragionamento lunghe.
- 5. Il Premio di Gruppo Lookahead (LGR) valuta i token candidati top-K in base alla confidenza indotta dall'insegnante.
- 6. LGR assegna ricompense normalizzate per gruppo.
- 7. LGR è progettato per l'efficienza computazionale.
- 8. L'articolo introduce un meccanismo basato sull'entropia per l'efficienza.
Entità
Istituzioni
- arXiv