DG-PG: Ridurre il Rumore nel MARL Multi-Agente con Modelli Analitici

other · 2026-05-07

Il framework Descent-Guided Policy Gradient (DG-PG) affronta i problemi di scalabilità presenti nell'apprendimento per rinforzo multi-agente cooperativo (MARL). Una sfida significativa deriva dal rumore incrociato tra agenti, dove i premi condivisi portano il segnale di apprendimento di ciascun agente a essere influenzato dalla casualità degli altri, con un conseguente aumento della varianza proporzionale al numero di agenti N. DG-PG utilizza modelli analitici differenziabili, tipicamente presenti in campi ingegneristici come il cloud computing e i sistemi di potenza, per fornire un segnale di discesa privo di rumore. Questa innovazione migliora gli aggiornamenti standard del policy gradient, riducendo la varianza dello stimatore da O(N) a O(1) mantenendo gli equilibri del gioco cooperativo. Inoltre, garantisce una complessità campionaria indipendente dall'agente, il che significa che le prestazioni rimangono stabili con l'aggiunta di agenti. La ricerca è disponibile su arXiv con identificatore 2602.20078.

Fatti principali

DG-PG riduce la varianza dello stimatore del policy gradient da O(N) a O(1)
Il rumore incrociato tra agenti scala con il numero di agenti N nel MARL cooperativo
I modelli analitici differenziabili dei sistemi ingegneristici forniscono segnali di discesa privi di rumore
DG-PG preserva gli equilibri del gioco cooperativo
Raggiunge una complessità campionaria indipendente dall'agente
Applicabile al cloud computing e ai sistemi di potenza
Pubblicato su arXiv con ID 2602.20078
Tipo di annuncio: replace-cross

DG-PG: Ridurre il Rumore nel MARL Multi-Agente con Modelli Analitici

Fatti principali

Entità

Istituzioni

Fonti