T$^2$PO: Controllo dell'Esplorazione Guidato dall'Incertezza per Apprendimento per Rinforzo Multi-turno Stabile in Agenti

other · 2026-05-06

Un nuovo articolo su arXiv (2605.02178) introduce Token- and Turn-level Policy Optimization (T$^2$PO), un framework basato sull'incertezza progettato per stabilizzare l'apprendimento per rinforzo multi-turno per LLM di ragionamento. Gli autori sostengono che l'instabilità nell'RL multi-turno spesso deriva da un'esplorazione inefficiente, in cui le politiche generano azioni a bassa informazione che non riescono a ridurre l'incertezza o a far progredire il compito. T$^2$PO affronta questo problema controllando l'esplorazione a due livelli granulari: a livello di token, monitora le dinamiche di incertezza e attiva un intervento di pensiero quando la variazione marginale di incertezza scende al di sotto di una soglia; a livello di turno, identifica interazioni con progresso esplorativo trascurabile. Il lavoro mira a migliorare la stabilità dell'addestramento e prevenire il collasso in compiti interattivi complessi.

Fatti principali

L'articolo è su arXiv con ID 2605.02178
Propone T$^2$PO (Token- and Turn-level Policy Optimization)
Affronta l'instabilità nell'apprendimento per rinforzo multi-turno
L'instabilità è attribuita a un'esplorazione inefficiente
Monitoraggio a livello di token delle dinamiche di incertezza
Identificazione a livello di turno di interazioni a basso progresso
Mira a prevenire il collasso dell'addestramento
Si concentra su LLM di ragionamento

T$^2$PO: Controllo dell'Esplorazione Guidato dall'Incertezza per Apprendimento per Rinforzo Multi-turno Stabile in Agenti

Fatti principali

Entità

Istituzioni

Fonti