Allocazione del Budget di Esplorazione in MARL Cooperativo tramite Scheduling Basato sulla Qualità

other · 2026-05-06

Un nuovo framework per l'apprendimento per rinforzo multi-agente cooperativo (MARL) affronta il problema del bilanciamento dei livelli di esplorazione per prevenire fallimenti di coordinazione o la mancata scoperta di strategie non comuni. Questo metodo integra uno scheduling sigmoideo condizionato dal ritorno (RCB) per gestire l'intensità globale insieme a una metrica per agente della Qualità del Segnale di Ricompensa (RSQ), che prioritizza le risorse di esplorazione per gli agenti che mostrano segnali di ricompensa intrinseca affidabili. Questa ricerca è stata resa disponibile su arXiv con l'identificatore 2605.01865.

Fatti principali

Il MARL cooperativo richiede che gli agenti scoprano strategie congiunte in uno spazio stato-azione combinatoriamente grande.
Le configurazioni di coordinazione efficaci sono estremamente rare.
La motivazione intrinseca aumenta le ricompense del compito con bonus di novità.
L'intensità di esplorazione β deve essere attentamente regolata: troppo grande sovrasta il segnale del compito, troppo piccola impedisce la scoperta.
Il framework affronta l'adattamento globale di β durante l'addestramento e l'allocazione del budget per agente.
RCB (scheduling sigmoideo condizionato dal ritorno) controlla l'intensità globale.
RSQ (metrica della Qualità del Segnale di Ricompensa) concentra il budget sugli agenti con segnali affidabili.
Pubblicato su arXiv:2605.01865.

Allocazione del Budget di Esplorazione in MARL Cooperativo tramite Scheduling Basato sulla Qualità

Fatti principali

Entità

Istituzioni

Fonti