ARTFEED — Contemporary Art Intelligence

BEACON: Apprendimento per Rinforzo Guidato da Milestone per Agenti Linguistici a Lungo Orizzonte

other · 2026-05-09

I ricercatori hanno sviluppato BEACON, un framework di apprendimento delle politiche guidato da milestone che affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo per compiti di agenti linguistici a lungo orizzonte. Partizionando le traiettorie ai confini delle milestone e applicando la modellazione temporale delle ricompense, BEACON consente un'assegnazione precisa del credito. Sui benchmark ALFWorld, WebShop e ScienceWorld, BEACON supera costantemente i metodi esistenti GRPO e GiGPO, in particolare nei compiti a lungo orizzonte.

Fatti principali

  • BEACON è un framework di apprendimento delle politiche guidato da milestone per agenti linguistici.
  • Affronta la misattribuzione del credito e l'inefficienza del campionamento nell'apprendimento per rinforzo.
  • Partiziona le traiettorie ai confini delle milestone.
  • Applica la modellazione temporale delle ricompense all'interno dei segmenti.
  • Stima i vantaggi a doppia scala.
  • Supera GRPO e GiGPO su ALFWorld, WebShop e ScienceWorld.
  • Particolarmente efficace nei compiti a lungo orizzonte di ALFWorld.
  • Introdotto nell'articolo arXiv 2605.06078.

Entità

Istituzioni

  • arXiv

Fonti