ARTFEED — Contemporary Art Intelligence

L'Ottimizzazione delle Politiche Guidata dall'Insegnante Migliora la Distillazione degli LLM

other · 2026-05-14

L'algoritmo di Ottimizzazione delle Politiche Guidata dall'Insegnante (TGPO), recentemente introdotto, affronta un significativo svantaggio nella distillazione Reverse KL (RKL) per i modelli linguistici di grandi dimensioni. Nei casi in cui le distribuzioni dello studente e dell'insegnante divergono notevolmente, la RKL tradizionale produce feedback negativi inutili e non migliora le prestazioni. TGPO migliora questo processo fornendo una guida direzionale densa, condizionando le previsioni dell'insegnante in base al rollout dello studente, rimanendo on-policy e inserendosi agevolmente nei framework RLVR attuali senza richiedere annotazioni aggiuntive dei dati. I test su complessi benchmark di ragionamento rivelano che TGPO supera sostanzialmente le baseline standard e dimostra resilienza attraverso vari modelli insegnante.

Fatti principali

  • 1. TGPO è un algoritmo on-policy per la distillazione degli LLM.
  • 2. Affronta una limitazione della Reverse KL (RKL) quando le distribuzioni dello studente e dell'insegnante divergono.
  • 3. TGPO incorpora una guida direzionale densa sfruttando le previsioni dell'insegnante condizionate dal rollout dello studente.
  • 4. Si integra con i framework RLVR esistenti senza annotazioni aggiuntive dei dati.
  • 5. Esperimenti su complessi benchmark di ragionamento mostrano che TGPO supera le baseline standard.
  • 6. TGPO è robusto rispetto a diversi insegnanti.
  • 7. L'articolo proviene da Computer Science > Machine Learning.
  • 8. La sottomissione è su arXiv.

Entità

Istituzioni

  • arXiv

Fonti