BEACON: Apprendimento per Rinforzo Guidato da Milestone per Agenti Linguistici a Lungo Orizzonte
I ricercatori hanno sviluppato BEACON, un framework di apprendimento delle politiche guidato da milestone che affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo per compiti di agenti linguistici a lungo orizzonte. Partizionando le traiettorie ai confini delle milestone e applicando la modellazione temporale delle ricompense, BEACON consente un'assegnazione precisa del credito. Sui benchmark ALFWorld, WebShop e ScienceWorld, BEACON supera costantemente i metodi esistenti GRPO e GiGPO, in particolare nei compiti a lungo orizzonte.
Fatti principali
- BEACON è un framework di apprendimento delle politiche guidato da milestone per agenti linguistici.
- Affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo.
- Partiziona le traiettorie ai confini delle milestone.
- Applica la modellazione temporale delle ricompense all'interno dei segmenti.
- Stima i vantaggi a doppia scala.
- Supera GRPO e GiGPO su ALFWorld, WebShop e ScienceWorld.
- Particolarmente efficace nei compiti a lungo orizzonte di ALFWorld.
- Introdotto nell'articolo arXiv 2605.06078.
Entità
Istituzioni
- arXiv