GROW: Allineamento di GRPO con la Modellazione Stato-Azione per Agenti VLM in Mondo Aperto
GROW, un innovativo framework di apprendimento per rinforzo, modifica l'ottimizzazione delle politiche relative di gruppo (GRPO) per migliorare i compiti multi-turno all'interno di agenti basati su modelli visione-linguaggio (VLM) in ambienti aperti. Il GRPO tradizionale richiede traiettorie complete per l'addestramento, generando contesti lunghi e maggiore rumore. Al contrario, GROW scompone queste traiettorie in campioni stato-azione, calcolando i vantaggi tra di essi anziché considerare l'intera traiettoria come un'unica unità. Questo approccio è descritto in un articolo disponibile su arXiv con ID 2605.20246, presentato come annuncio di tipo cross. La ricerca affronta la sfida di utilizzare sofisticati algoritmi di RL per la percezione visiva e l'esecuzione di azioni multi-turno, essenziali per applicazioni in mondi aperti. Gli autori presentano un'analisi surrogata che dimostra come il metodo dei campioni raggruppati alteri il GRPO standard pur rimanendo teoricamente valido.
Fatti principali
- GROW è un framework di apprendimento per rinforzo per agenti VLM in mondi aperti.
- Adatta l'ottimizzazione delle politiche relative di gruppo (GRPO) per compiti multi-turno.
- Il GRPO standard richiede traiettorie complete come campioni di addestramento.
- GROW scompone le traiettorie in campioni stato-azione.
- I vantaggi sono calcolati tra campioni stato-azione, non tra traiettorie complete.
- L'articolo è su arXiv con ID 2605.20246.
- Il tipo di annuncio è cross.
- Il lavoro affronta la percezione visiva e l'esecuzione di azioni multi-turno.
Entità
Istituzioni
- arXiv