Early Stopping Rollout Migliora l'Efficienza della Distillazione On-Policy

ai-technology · 2026-05-27

Una nuova tecnica di machine learning chiamata Early Stopping Rollout (ESR) affronta il problema del 'Decadimento dell'Insegnante Off-Policy' nella distillazione on-policy. In questo paradigma, un modello studente viene addestrato valutando i propri rollout con un modello insegnante, ma la capacità correttiva dell'insegnante decade per i token successivi a causa del contesto off-policy. ESR limita la generazione del rollout ai primi token di risposta, superando il rollout completo in termini di dimensioni del modello, famiglie, compiti e regimi di addestramento, migliorando al contempo l'efficienza GPU e la stabilità dell'addestramento, specialmente in scenari cross-famiglia. L'articolo è pubblicato su arXiv con ID 2605.27028.

Fatti principali

La distillazione on-policy utilizza rollout dello studente valutati dall'insegnante per l'addestramento.
Il problema del Decadimento dell'Insegnante Off-Policy riduce l'efficacia dell'insegnante per i token successivi.
Early Stopping Rollout (ESR) limita il rollout ai primi token di risposta.
ESR supera le prestazioni del rollout completo in termini di dimensione del modello, famiglia, compiti e regime di addestramento.
ESR mostra una maggiore efficienza GPU e stabilità dell'addestramento.
I miglioramenti sono particolarmente evidenti in scenari cross-famiglia di modelli.
L'articolo è disponibile su arXiv (ID: 2605.27028).
La tecnica è semplice ma efficace.

Early Stopping Rollout Migliora l'Efficienza della Distillazione On-Policy

Fatti principali

Entità

Istituzioni

Fonti