ARTFEED — Contemporary Art Intelligence

Il Premio di Gruppo Lookahead Mitiga il Decadimento della Fedeltà di Supervisione nella Distillazione On-Policy

ai-technology · 2026-06-01

I ricercatori identificano il Decadimento della Fedeltà di Supervisione (SFD) come un collo di bottiglia critico nella distillazione on-policy, dove la confidenza dell'insegnante diminuisce all'aumentare della lunghezza dei prefissi dello studente, indebolendo i segnali correttivi. Propongono il Premio di Gruppo Lookahead (LGR) per valutare i token dello studente in base alla futura confidenza dell'insegnante, migliorando il ragionamento a catena lunga.

Fatti principali

  • 1. arXiv:2605.30833
  • 2. La distillazione on-policy utilizza il feedback dell'insegnante a livello di token su traiettorie generate dallo studente.
  • 3. Il Decadimento della Fedeltà di Supervisione (SFD) riduce la confidenza dell'insegnante con prefissi dello studente più lunghi.
  • 4. SFD causa la deriva dello studente in catene di ragionamento lunghe.
  • 5. Il Premio di Gruppo Lookahead (LGR) valuta i token candidati top-K in base alla confidenza indotta dall'insegnante.
  • 6. LGR assegna ricompense normalizzate per gruppo.
  • 7. LGR è progettato per l'efficienza computazionale.
  • 8. L'articolo introduce un meccanismo basato sull'entropia per l'efficienza.

Entità

Istituzioni

  • arXiv

Fonti