vOPD: Stabilizzare la distillazione on-policy per LLM con baseline a variabile di controllo

ai-technology · 2026-05-11

I ricercatori hanno introdotto una nuova tecnica chiamata vOPD, che sta per distillazione on-policy con una baseline a variabile di controllo. Questo approccio mira a risolvere i problemi di instabilità incontrati nei modelli linguistici di grandi dimensioni durante la distillazione on-policy (OPD). Tipicamente, l'OPD viene applicata per compiti di ragionamento post-addestramento, ma spesso soffre di fluttuazioni del gradiente a causa della sua dipendenza da uno stimatore Monte Carlo a campione singolo. vOPD migliora la stabilità trattando l'OPD come apprendimento per rinforzo con gradiente politico e integrando una funzione valore come baseline a variabile di controllo. Questa funzione valore viene derivata durante il forward pass, eliminando la necessità di reti critiche aggiuntive.

Fatti principali

1. vOPD sta per distillazione on-policy con baseline a variabile di controllo
2. L'OPD è un paradigma dominante di post-addestramento per modelli linguistici di grandi dimensioni, specialmente per il ragionamento
3. L'OPD è instabile a causa dell'elevata varianza del gradiente del suo stimatore Monte Carlo a campione singolo
4. vOPD tratta l'OPD come apprendimento per rinforzo con gradiente politico
5. vOPD introduce una baseline a variabile di controllo (funzione valore) dalla letteratura del RL
6. La funzione valore ha una forma chiusa come divergenza KL inversa per token tra studente e insegnante
7. La forma chiusa è disponibile direttamente dal forward pass già calcolato
8. Non sono necessari critici aggiuntivi o inferenze
9. I metodi esistenti calcolano la divergenza KL inversa a livello di token sull'intero vocabolario o si limitano al supporto top-k, aggiungendo overhead
10. L'articolo è disponibile su arXiv con ID 2605.07865

vOPD: Stabilizzare la distillazione on-policy per LLM con baseline a variabile di controllo

Fatti principali

Entità

Istituzioni

Fonti