MAVIC: Correzione delle stime di valore per il seguimento di istruzioni nell'apprendimento per rinforzo multi-agente

ai-technology · 2026-05-14

I ricercatori hanno introdotto un nuovo metodo chiamato Macro-Action Value Correction for Instruction Compliance (MAVIC) per affrontare le incongruenze nella stima del valore nell'apprendimento per rinforzo multi-agente (MARL). Questo problema si verifica quando gli agenti devono seguire istruzioni in linguaggio naturale esterne che interrompono le macro-azioni in corso. Gli aggiornamenti di Bellman tradizionali collegano le stime di valore attraverso diversi contesti di istruzione, causando fallimenti. MAVIC affronta questo problema correggendo i backup di Bellman ai confini delle istruzioni, modificando il target di bootstrap, garantendo così una stima coerente del valore durante le transizioni di istruzione stocastiche all'interno di una singola politica. Il metodo è supportato da analisi teoriche e da un'implementazione actor-critic, dimostrando prestazioni impressionanti. Questo studio è disponibile su arXiv con ID 2605.12655.

Fatti principali

MAVIC affronta le incongruenze nella stima del valore nel MARL con seguimento di istruzioni.
Gli aggiornamenti standard di Bellman collegano le stime di valore attraverso contesti di istruzione.
MAVIC corregge i backup di Bellman ai confini delle istruzioni.
Modifica il target di bootstrap anziché utilizzare il reward shaping.
Il metodo consente una stima coerente del valore sotto commutazione stocastica delle istruzioni.
MAVIC è supportato da analisi teoriche e da un'implementazione actor-critic.
L'articolo è su arXiv con ID 2605.12655.
L'approccio raggiunge prestazioni elevate.

MAVIC: Correzione delle stime di valore per il seguimento di istruzioni nell'apprendimento per rinforzo multi-agente

Fatti principali

Entità

Istituzioni

Fonti