SOD: Distillazione On-policy a Passi per Agenti di Modelli Linguistici Piccoli

ai-technology · 2026-05-11

Un approccio innovativo noto come SOD (Step-wise On-policy Distillation) affronta le carenze della distillazione on-policy (OPD) nel ragionamento integrato con strumenti (TIR) specificamente per modelli linguistici piccoli. Mentre l'OPD fornisce una guida densa a livello di token da un insegnante sulle traiettorie prodotte dagli studenti, il TIR subisce un effetto a catena di errori derivanti dall'uso scorretto degli strumenti, aumentando la divergenza tra studente e insegnante e rendendo la supervisione inefficace. Il SOD mitiga questo problema regolando dinamicamente la forza della distillazione ad ogni passo in base al livello di divergenza, frenando così la propagazione degli errori. Questa tecnica è pensata per agenti di modelli linguistici piccoli e mira a migliorare la stabilità durante interazioni prolungate con gli strumenti. La ricerca è disponibile su arXiv con ID 2605.07725.

Fatti principali

1. SOD sta per Step-wise On-policy Distillation.
2. Si rivolge ad agenti di modelli linguistici piccoli.
3. Il ragionamento integrato con strumenti (TIR) è difficile da scalare a modelli piccoli a causa di instabilità e capacità limitata.
4. La distillazione on-policy (OPD) fornisce una supervisione densa a livello di token da un insegnante.
5. Nel TIR, l'OPD porta a chiamate errate a cascata degli strumenti e a una maggiore divergenza studente-insegnante.
6. Il SOD ripondera adattivamente la forza della distillazione per ogni passo in base alla divergenza a livello di passo.
7. L'articolo è su arXiv con ID 2605.07725.
8. Il metodo mira a migliorare la stabilità nelle interazioni prolungate con gli strumenti.

SOD: Distillazione On-policy a Passi per Agenti di Modelli Linguistici Piccoli

Fatti principali

Entità

Istituzioni

Fonti