DG-PG: Ridurre il Rumore nel MARL Multi-Agente con Modelli Analitici
Il framework Descent-Guided Policy Gradient (DG-PG) affronta i problemi di scalabilità presenti nell'apprendimento per rinforzo multi-agente cooperativo (MARL). Una sfida significativa deriva dal rumore incrociato tra agenti, dove i premi condivisi portano il segnale di apprendimento di ciascun agente a essere influenzato dalla casualità degli altri, con un conseguente aumento della varianza proporzionale al numero di agenti N. DG-PG utilizza modelli analitici differenziabili, tipicamente presenti in campi ingegneristici come il cloud computing e i sistemi di potenza, per fornire un segnale di discesa privo di rumore. Questa innovazione migliora gli aggiornamenti standard del policy gradient, riducendo la varianza dello stimatore da O(N) a O(1) mantenendo gli equilibri del gioco cooperativo. Inoltre, garantisce una complessità campionaria indipendente dall'agente, il che significa che le prestazioni rimangono stabili con l'aggiunta di agenti. La ricerca è disponibile su arXiv con identificatore 2602.20078.
Fatti principali
- DG-PG riduce la varianza dello stimatore del policy gradient da O(N) a O(1)
- Il rumore incrociato tra agenti scala con il numero di agenti N nel MARL cooperativo
- I modelli analitici differenziabili dei sistemi ingegneristici forniscono segnali di discesa privi di rumore
- DG-PG preserva gli equilibri del gioco cooperativo
- Raggiunge una complessità campionaria indipendente dall'agente
- Applicabile al cloud computing e ai sistemi di potenza
- Pubblicato su arXiv con ID 2602.20078
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv