ARTFEED — Contemporary Art Intelligence

Il framework TCOD migliora la distillazione di agenti multi-turn

ai-technology · 2026-04-29

I ricercatori identificano l'Instabilità KL a Livello di Traiettoria nella distillazione on-policy per agenti autonomi multi-turn, dove la divergenza KL aumenta insieme a un calo del tasso di successo e rimane elevata dopo la convergenza a causa della propagazione degli errori tra i turni. Propongono TCOD (Temporal Curriculum On-Policy Distillation), che controlla e progressivamente espande la profondità della traiettoria esposta allo studente, stabilizzando l'addestramento. Il lavoro è pubblicato su arXiv (2604.24005).

Fatti principali

  • La distillazione on-policy (OPD) trasferisce il ragionamento da modelli grandi a studenti più piccoli.
  • L'OPD standard affronta l'Instabilità KL a Livello di Traiettoria in contesti multi-turn.
  • La divergenza KL aumenta con un calo del tasso di successo e rimane elevata dopo la convergenza.
  • L'instabilità deriva dalla propagazione degli errori tra i turni.
  • TCOD controlla la profondità della traiettoria e la espande progressivamente.
  • TCOD sta per Temporal Curriculum On-Policy Distillation.
  • L'articolo è su arXiv con ID 2604.24005.
  • Il tipo di annuncio è cross.

Entità

Istituzioni

  • arXiv

Fonti