Distillazione On-Policy per LLM: Insidie e Soluzioni

other · 2026-05-13

Un nuovo studio su arXiv indaga la distillazione on-policy (OPD) e l'auto-distillazione on-policy (OPSD) per modelli linguistici di grandi dimensioni. La ricerca rileva che l'OPD sul ragionamento matematico è sensibile alla scelta del teacher e alla formulazione della loss, mentre l'OPSD fallisce senza informazioni privilegiate specifiche dell'istanza al momento del test. L'OPSD funziona quando le informazioni privilegiate rappresentano una regola latente condivisa, come un prompt di sistema. Vengono identificati tre meccanismi di fallimento, tra cui il disallineamento della distribuzione tra teacher e student. Lo studio fornisce un'analisi empirica completa di quando questi metodi hanno successo o falliscono.

Fatti principali

La distillazione on-policy (OPD) e l'auto-distillazione on-policy (OPSD) sono metodi di post-addestramento per LLM.
L'OPD sul ragionamento matematico è altamente sensibile alla scelta del teacher e alla formulazione della loss.
L'OPSD fallisce nelle impostazioni testate a causa dell'assenza di informazioni privilegiate specifiche dell'istanza al momento del test.
L'OPSD è efficace quando le informazioni privilegiate rappresentano una regola latente condivisa.
Vengono identificati tre meccanismi di fallimento, incluso il disallineamento della distribuzione.
Lo studio è pubblicato su arXiv con ID 2605.11182.
La ricerca offre una supervisione densa a livello di token sulle traiettorie derivanti dalla propria policy del modello.
I risultati esistenti sull'efficacia di OP(S)D sono contrastanti.

Distillazione On-Policy per LLM: Insidie e Soluzioni

Fatti principali

Entità

Istituzioni

Fonti