Il framework TCOD migliora la distillazione di agenti multi-turn
I ricercatori identificano l'Instabilità KL a Livello di Traiettoria nella distillazione on-policy per agenti autonomi multi-turn, dove la divergenza KL aumenta insieme a un calo del tasso di successo e rimane elevata dopo la convergenza a causa della propagazione degli errori tra i turni. Propongono TCOD (Temporal Curriculum On-Policy Distillation), che controlla e progressivamente espande la profondità della traiettoria esposta allo studente, stabilizzando l'addestramento. Il lavoro è pubblicato su arXiv (2604.24005).
Fatti principali
- La distillazione on-policy (OPD) trasferisce il ragionamento da modelli grandi a studenti più piccoli.
- L'OPD standard affronta l'Instabilità KL a Livello di Traiettoria in contesti multi-turn.
- La divergenza KL aumenta con un calo del tasso di successo e rimane elevata dopo la convergenza.
- L'instabilità deriva dalla propagazione degli errori tra i turni.
- TCOD controlla la profondità della traiettoria e la espande progressivamente.
- TCOD sta per Temporal Curriculum On-Policy Distillation.
- L'articolo è su arXiv con ID 2604.24005.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv