Disaccoppiamento di KL e Traiettorie nella Distillazione di LLM
Uno studio recente pubblicato su arXiv (2605.16826) analizza la distillazione della conoscenza nella fase di post-addestramento dei modelli linguistici di grandi dimensioni (LLM). Evidenzia che gli approcci comuni, come la distillazione off-policy e on-policy (OPD), collegano intrinsecamente due scelte distinte: la fonte del prefisso e la direzione della divergenza KL a livello di token. Scomponendo la KL a livello di sequenza attraverso distribuzioni di risposta autoregressive, i ricercatori dimostrano che la KL in avanti allinea i prefissi dell'insegnante con la KL in avanti a livello di token, mentre la KL inversa allinea i prefissi dello studente con la KL inversa a livello di token. Sostengono che questa connessione non è essenziale e che separare queste dimensioni produce quattro obiettivi legittimi. L'articolo offre una visione completa di queste metodologie.
Fatti principali
- L'articolo arXiv:2605.16826 analizza la distillazione di LLM
- La distillazione off-policy e on-policy accoppiano la fonte del prefisso e la direzione della KL a livello di token
- Il disaccoppiamento produce quattro obiettivi validi
- La KL in avanti dà un allineamento incrociato entropico stile SFT
- La KL inversa dà un obiettivo di policy-gradient stile RL
- Si collega a SFT off-policy, DAgger, RL offline, OPD
Entità
Istituzioni
- arXiv