Assegnazione del Credito Basata su Grafi per RL Agentico
Una nuova tecnica di apprendimento per rinforzo nota come Graph-based Group Policy Optimization (GraphGPO) affronta la sfida dell'assegnazione del credito in compiti agentici creando un grafo completo di transizioni di stato derivato dalle traiettorie di rollout. A differenza del RL di gruppo convenzionale, che dipende da un'attribuzione a livello di traiettoria legata ai risultati finali, GraphGPO valuta la distanza da ogni stato all'obiettivo del compito utilizzando dati globali del grafo. Assegna credito a ciascun arco in base a quanto la transizione riduce tale distanza, facilitando un'assegnazione del credito più precisa a livello di passo. Questo metodo rivela intuizioni nascoste da traiettorie fallite, dove passaggi cruciali potrebbero essere trascurati. Progettato per l'apprendimento per rinforzo agentico e grandi modelli linguistici, migliora le attuali strategie di ottimizzazione delle politiche di gruppo. La ricerca è disponibile su arXiv con l'identificatore 2605.26684.
Fatti principali
- GraphGPO aggrega tutte le traiettorie di rollout in un grafo unificato di transizioni di stato.
- Stima la distanza da ogni stato all'obiettivo del compito utilizzando informazioni globali del grafo.
- Il credito viene assegnato a ciascun arco in base alla riduzione della distanza dall'obiettivo.
- Affronta l'attribuzione a grana grossa a livello di traiettoria nel RL di gruppo.
- Progettato per compiti agentici e grandi modelli linguistici.
- Articolo disponibile su arXiv con ID 2605.26684.
- Il metodo scopre passaggi preziosi oscurati in traiettorie fallite.
- Consente un'assegnazione del credito più fedele a livello di passo.
Entità
Istituzioni
- arXiv