RL Consapevole dell'Esplorazione Potenzia il Ragionamento Agenziale degli LLM
Un nuovo framework per l'apprendimento per rinforzo consente agli agenti LLM di esplorare in modo adattivo, specificamente durante periodi di alta incertezza, migliorando così le loro capacità decisionali. Utilizzando l'inferenza variazionale per valutare le azioni esplorative e implementando un meccanismo di raggruppamento per distinguere tra esplorazione ed esecuzione del compito, questo metodo supera un significativo svantaggio delle attuali tecniche di scaling test-time agenziale che si basano su strategie di esplorazione uniformi. La ricerca è disponibile su arXiv con l'identificatore 2605.08978.
Fatti principali
- arXiv:2605.08978
- Framework di apprendimento per rinforzo consapevole dell'esplorazione
- Gli agenti LLM esplorano adattivamente quando l'incertezza è alta
- Funzione di ricompensa a grana fine tramite inferenza variazionale
- Meccanismo di raggruppamento consapevole dell'esplorazione
- Separa le azioni esplorative dalle azioni di completamento del compito
- Mira ai gap informativi
- Consente esplorazione selettiva e transizione all'esecuzione
Entità
Istituzioni
- arXiv