L'Ottimizzazione delle Politiche Guidata dall'Insegnante Migliora la Distillazione degli LLM

other · 2026-05-14

L'algoritmo di Ottimizzazione delle Politiche Guidata dall'Insegnante (TGPO), recentemente introdotto, affronta un significativo svantaggio nella distillazione Reverse KL (RKL) per i modelli linguistici di grandi dimensioni. Nei casi in cui le distribuzioni dello studente e dell'insegnante divergono notevolmente, la RKL tradizionale produce feedback negativi inutili e non migliora le prestazioni. TGPO migliora questo processo fornendo una guida direzionale densa, condizionando le previsioni dell'insegnante in base al rollout dello studente, rimanendo on-policy e inserendosi agevolmente nei framework RLVR attuali senza richiedere annotazioni aggiuntive dei dati. I test su complessi benchmark di ragionamento rivelano che TGPO supera sostanzialmente le baseline standard e dimostra resilienza attraverso vari modelli insegnante.

Fatti principali

1. TGPO è un algoritmo on-policy per la distillazione degli LLM.
2. Affronta una limitazione della Reverse KL (RKL) quando le distribuzioni dello studente e dell'insegnante divergono.
3. TGPO incorpora una guida direzionale densa sfruttando le previsioni dell'insegnante condizionate dal rollout dello studente.
4. Si integra con i framework RLVR esistenti senza annotazioni aggiuntive dei dati.
5. Esperimenti su complessi benchmark di ragionamento mostrano che TGPO supera le baseline standard.
6. TGPO è robusto rispetto a diversi insegnanti.
7. L'articolo proviene da Computer Science > Machine Learning.
8. La sottomissione è su arXiv.

L'Ottimizzazione delle Politiche Guidata dall'Insegnante Migliora la Distillazione degli LLM

Fatti principali

Entità

Istituzioni

Fonti