T$^2$PO: Controllo dell'Esplorazione Guidato dall'Incertezza per Apprendimento per Rinforzo Multi-turno Stabile in Agenti
Un nuovo articolo su arXiv (2605.02178) introduce Token- and Turn-level Policy Optimization (T$^2$PO), un framework basato sull'incertezza progettato per stabilizzare l'apprendimento per rinforzo multi-turno per LLM di ragionamento. Gli autori sostengono che l'instabilità nell'RL multi-turno spesso deriva da un'esplorazione inefficiente, in cui le politiche generano azioni a bassa informazione che non riescono a ridurre l'incertezza o a far progredire il compito. T$^2$PO affronta questo problema controllando l'esplorazione a due livelli granulari: a livello di token, monitora le dinamiche di incertezza e attiva un intervento di pensiero quando la variazione marginale di incertezza scende al di sotto di una soglia; a livello di turno, identifica interazioni con progresso esplorativo trascurabile. Il lavoro mira a migliorare la stabilità dell'addestramento e prevenire il collasso in compiti interattivi complessi.
Fatti principali
- L'articolo è su arXiv con ID 2605.02178
- Propone T$^2$PO (Token- and Turn-level Policy Optimization)
- Affronta l'instabilità nell'apprendimento per rinforzo multi-turno
- L'instabilità è attribuita a un'esplorazione inefficiente
- Monitoraggio a livello di token delle dinamiche di incertezza
- Identificazione a livello di turno di interazioni a basso progresso
- Mira a prevenire il collasso dell'addestramento
- Si concentra su LLM di ragionamento
Entità
Istituzioni
- arXiv