ARTFEED — Contemporary Art Intelligence

vOPD: Stabilizzare la distillazione on-policy per LLM con baseline a variabile di controllo

ai-technology · 2026-05-11

I ricercatori hanno introdotto una nuova tecnica chiamata vOPD, che sta per distillazione on-policy con una baseline a variabile di controllo. Questo approccio mira a risolvere i problemi di instabilità incontrati nei modelli linguistici di grandi dimensioni durante la distillazione on-policy (OPD). Tipicamente, l'OPD viene applicata per compiti di ragionamento post-addestramento, ma spesso soffre di fluttuazioni del gradiente a causa della sua dipendenza da uno stimatore Monte Carlo a campione singolo. vOPD migliora la stabilità trattando l'OPD come apprendimento per rinforzo con gradiente politico e integrando una funzione valore come baseline a variabile di controllo. Questa funzione valore viene derivata durante il forward pass, eliminando la necessità di reti critiche aggiuntive.

Fatti principali

  • 1. vOPD sta per distillazione on-policy con baseline a variabile di controllo
  • 2. L'OPD è un paradigma dominante di post-addestramento per modelli linguistici di grandi dimensioni, specialmente per il ragionamento
  • 3. L'OPD è instabile a causa dell'elevata varianza del gradiente del suo stimatore Monte Carlo a campione singolo
  • 4. vOPD tratta l'OPD come apprendimento per rinforzo con gradiente politico
  • 5. vOPD introduce una baseline a variabile di controllo (funzione valore) dalla letteratura del RL
  • 6. La funzione valore ha una forma chiusa come divergenza KL inversa per token tra studente e insegnante
  • 7. La forma chiusa è disponibile direttamente dal forward pass già calcolato
  • 8. Non sono necessari critici aggiuntivi o inferenze
  • 9. I metodi esistenti calcolano la divergenza KL inversa a livello di token sull'intero vocabolario o si limitano al supporto top-k, aggiungendo overhead
  • 10. L'articolo è disponibile su arXiv con ID 2605.07865

Entità

Istituzioni

  • arXiv

Fonti