Disaccoppiamento di KL e Traiettorie nella Distillazione di LLM

other · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.16826) analizza la distillazione della conoscenza nella fase di post-addestramento dei modelli linguistici di grandi dimensioni (LLM). Evidenzia che gli approcci comuni, come la distillazione off-policy e on-policy (OPD), collegano intrinsecamente due scelte distinte: la fonte del prefisso e la direzione della divergenza KL a livello di token. Scomponendo la KL a livello di sequenza attraverso distribuzioni di risposta autoregressive, i ricercatori dimostrano che la KL in avanti allinea i prefissi dell'insegnante con la KL in avanti a livello di token, mentre la KL inversa allinea i prefissi dello studente con la KL inversa a livello di token. Sostengono che questa connessione non è essenziale e che separare queste dimensioni produce quattro obiettivi legittimi. L'articolo offre una visione completa di queste metodologie.

Fatti principali

L'articolo arXiv:2605.16826 analizza la distillazione di LLM
La distillazione off-policy e on-policy accoppiano la fonte del prefisso e la direzione della KL a livello di token
Il disaccoppiamento produce quattro obiettivi validi
La KL in avanti dà un allineamento incrociato entropico stile SFT
La KL inversa dà un obiettivo di policy-gradient stile RL
Si collega a SFT off-policy, DAgger, RL offline, OPD

Disaccoppiamento di KL e Traiettorie nella Distillazione di LLM

Fatti principali

Entità

Istituzioni

Fonti