RL Interattivo Calibrato Affronta lo Shift di Distribuzione nel Dialogo con LLM
Un recente studio pubblicato su arXiv (2605.26403) evidenzia lo shift di distribuzione del contesto come una sfida critica nell'addestramento di agenti dialogici basati su LLM. I ricercatori dimostrano che sia il RL a Contesto Statico (che si basa su log offline fissi) sia il RL Interattivo (che utilizza simulatori basati su prompt) subiscono un disallineamento tra i dialoghi di addestramento e le conversazioni reali, portando a un degrado quadratico della qualità nel corso di più turni. Identificano due cause principali per questo shift: una derivante da cambiamenti indotti dalla politica a causa di storie statiche e l'altra da discrepanze indotte dal simulatore tra il comportamento umano e le simulazioni. Per affrontare questo problema, introducono il RL Interattivo Calibrato, un framework completo che integra il RL interattivo con un simulatore calibrato, con l'obiettivo di ridurre entrambi i tipi di shift e promuovere lo sviluppo di agenti LLM altamente interattivi.
Fatti principali
- Il paper arXiv:2605.26403v1 identifica lo shift di distribuzione del contesto nell'addestramento del dialogo con LLM.
- Lo shift si accumula quadraticamente nei turni, degradando la qualità del dialogo.
- Due fonti: shift indotto dalla politica e shift indotto dal simulatore.
- Il RL a Contesto Statico si addestra su log offline fissi.
- Il RL Interattivo utilizza simulatori basati su prompt.
- Il RL Interattivo Calibrato è proposto come framework unificato.
- Il framework accoppia il RL interattivo con un simulatore calibrato.
- L'obiettivo è sviluppare agenti dialogici basati su LLM altamente interattivi.
Entità
Istituzioni
- arXiv