ARTFEED — Contemporary Art Intelligence

Early Stopping Rollout Migliora l'Efficienza della Distillazione On-Policy

ai-technology · 2026-05-27

Una nuova tecnica di machine learning chiamata Early Stopping Rollout (ESR) affronta il problema del 'Decadimento dell'Insegnante Off-Policy' nella distillazione on-policy. In questo paradigma, un modello studente viene addestrato valutando i propri rollout con un modello insegnante, ma la capacità correttiva dell'insegnante decade per i token successivi a causa del contesto off-policy. ESR limita la generazione del rollout ai primi token di risposta, superando il rollout completo in termini di dimensioni del modello, famiglie, compiti e regimi di addestramento, migliorando al contempo l'efficienza GPU e la stabilità dell'addestramento, specialmente in scenari cross-famiglia. L'articolo è pubblicato su arXiv con ID 2605.27028.

Fatti principali

  • La distillazione on-policy utilizza rollout dello studente valutati dall'insegnante per l'addestramento.
  • Il problema del Decadimento dell'Insegnante Off-Policy riduce l'efficacia dell'insegnante per i token successivi.
  • Early Stopping Rollout (ESR) limita il rollout ai primi token di risposta.
  • ESR supera le prestazioni del rollout completo in termini di dimensione del modello, famiglia, compiti e regime di addestramento.
  • ESR mostra una maggiore efficienza GPU e stabilità dell'addestramento.
  • I miglioramenti sono particolarmente evidenti in scenari cross-famiglia di modelli.
  • L'articolo è disponibile su arXiv (ID: 2605.27028).
  • La tecnica è semplice ma efficace.

Entità

Istituzioni

  • arXiv

Fonti