Assegnazione del Credito Basata su Grafi per RL Agentico

ai-technology · 2026-05-27

Una nuova tecnica di apprendimento per rinforzo nota come Graph-based Group Policy Optimization (GraphGPO) affronta la sfida dell'assegnazione del credito in compiti agentici creando un grafo completo di transizioni di stato derivato dalle traiettorie di rollout. A differenza del RL di gruppo convenzionale, che dipende da un'attribuzione a livello di traiettoria legata ai risultati finali, GraphGPO valuta la distanza da ogni stato all'obiettivo del compito utilizzando dati globali del grafo. Assegna credito a ciascun arco in base a quanto la transizione riduce tale distanza, facilitando un'assegnazione del credito più precisa a livello di passo. Questo metodo rivela intuizioni nascoste da traiettorie fallite, dove passaggi cruciali potrebbero essere trascurati. Progettato per l'apprendimento per rinforzo agentico e grandi modelli linguistici, migliora le attuali strategie di ottimizzazione delle politiche di gruppo. La ricerca è disponibile su arXiv con l'identificatore 2605.26684.

Fatti principali

GraphGPO aggrega tutte le traiettorie di rollout in un grafo unificato di transizioni di stato.
Stima la distanza da ogni stato all'obiettivo del compito utilizzando informazioni globali del grafo.
Il credito viene assegnato a ciascun arco in base alla riduzione della distanza dall'obiettivo.
Affronta l'attribuzione a grana grossa a livello di traiettoria nel RL di gruppo.
Progettato per compiti agentici e grandi modelli linguistici.
Articolo disponibile su arXiv con ID 2605.26684.
Il metodo scopre passaggi preziosi oscurati in traiettorie fallite.
Consente un'assegnazione del credito più fedele a livello di passo.

Assegnazione del Credito Basata su Grafi per RL Agentico

Fatti principali

Entità

Istituzioni

Fonti