BEACON: Apprendimento per Rinforzo Guidato da Milestone per Agenti Linguistici a Lungo Orizzonte

other · 2026-05-09

I ricercatori hanno sviluppato BEACON, un framework di apprendimento delle politiche guidato da milestone che affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo per compiti di agenti linguistici a lungo orizzonte. Partizionando le traiettorie ai confini delle milestone e applicando la modellazione temporale delle ricompense, BEACON consente un'assegnazione precisa del credito. Sui benchmark ALFWorld, WebShop e ScienceWorld, BEACON supera costantemente i metodi esistenti GRPO e GiGPO, in particolare nei compiti a lungo orizzonte.

Fatti principali

BEACON è un framework di apprendimento delle politiche guidato da milestone per agenti linguistici.
Affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo.
Partiziona le traiettorie ai confini delle milestone.
Applica la modellazione temporale delle ricompense all'interno dei segmenti.
Stima i vantaggi a doppia scala.
Supera GRPO e GiGPO su ALFWorld, WebShop e ScienceWorld.
Particolarmente efficace nei compiti a lungo orizzonte di ALFWorld.
Introdotto nell'articolo arXiv 2605.06078.

BEACON: Apprendimento per Rinforzo Guidato da Milestone per Agenti Linguistici a Lungo Orizzonte

Fatti principali

Entità

Istituzioni

Fonti