ARTFEED — Contemporary Art Intelligence

Assegnazione del Credito Basata su Grafi per RL Agentico

ai-technology · 2026-05-27

Una nuova tecnica di apprendimento per rinforzo nota come Graph-based Group Policy Optimization (GraphGPO) affronta la sfida dell'assegnazione del credito in compiti agentici creando un grafo completo di transizioni di stato derivato dalle traiettorie di rollout. A differenza del RL di gruppo convenzionale, che dipende da un'attribuzione a livello di traiettoria legata ai risultati finali, GraphGPO valuta la distanza da ogni stato all'obiettivo del compito utilizzando dati globali del grafo. Assegna credito a ciascun arco in base a quanto la transizione riduce tale distanza, facilitando un'assegnazione del credito più precisa a livello di passo. Questo metodo rivela intuizioni nascoste da traiettorie fallite, dove passaggi cruciali potrebbero essere trascurati. Progettato per l'apprendimento per rinforzo agentico e grandi modelli linguistici, migliora le attuali strategie di ottimizzazione delle politiche di gruppo. La ricerca è disponibile su arXiv con l'identificatore 2605.26684.

Fatti principali

  • GraphGPO aggrega tutte le traiettorie di rollout in un grafo unificato di transizioni di stato.
  • Stima la distanza da ogni stato all'obiettivo del compito utilizzando informazioni globali del grafo.
  • Il credito viene assegnato a ciascun arco in base alla riduzione della distanza dall'obiettivo.
  • Affronta l'attribuzione a grana grossa a livello di traiettoria nel RL di gruppo.
  • Progettato per compiti agentici e grandi modelli linguistici.
  • Articolo disponibile su arXiv con ID 2605.26684.
  • Il metodo scopre passaggi preziosi oscurati in traiettorie fallite.
  • Consente un'assegnazione del credito più fedele a livello di passo.

Entità

Istituzioni

  • arXiv

Fonti