Il framework TCOD migliora la distillazione di agenti multi-turn

ai-technology · 2026-04-29

I ricercatori identificano l'Instabilità KL a Livello di Traiettoria nella distillazione on-policy per agenti autonomi multi-turn, dove la divergenza KL aumenta insieme a un calo del tasso di successo e rimane elevata dopo la convergenza a causa della propagazione degli errori tra i turni. Propongono TCOD (Temporal Curriculum On-Policy Distillation), che controlla e progressivamente espande la profondità della traiettoria esposta allo studente, stabilizzando l'addestramento. Il lavoro è pubblicato su arXiv (2604.24005).

Fatti principali

La distillazione on-policy (OPD) trasferisce il ragionamento da modelli grandi a studenti più piccoli.
L'OPD standard affronta l'Instabilità KL a Livello di Traiettoria in contesti multi-turn.
La divergenza KL aumenta con un calo del tasso di successo e rimane elevata dopo la convergenza.
L'instabilità deriva dalla propagazione degli errori tra i turni.
TCOD controlla la profondità della traiettoria e la espande progressivamente.
TCOD sta per Temporal Curriculum On-Policy Distillation.
L'articolo è su arXiv con ID 2604.24005.
Il tipo di annuncio è cross.

Il framework TCOD migliora la distillazione di agenti multi-turn

Fatti principali

Entità

Istituzioni

Fonti