Allocazione del Budget di Esplorazione in MARL Cooperativo tramite Scheduling Basato sulla Qualità
Un nuovo framework per l'apprendimento per rinforzo multi-agente cooperativo (MARL) affronta il problema del bilanciamento dei livelli di esplorazione per prevenire fallimenti di coordinazione o la mancata scoperta di strategie non comuni. Questo metodo integra uno scheduling sigmoideo condizionato dal ritorno (RCB) per gestire l'intensità globale insieme a una metrica per agente della Qualità del Segnale di Ricompensa (RSQ), che prioritizza le risorse di esplorazione per gli agenti che mostrano segnali di ricompensa intrinseca affidabili. Questa ricerca è stata resa disponibile su arXiv con l'identificatore 2605.01865.
Fatti principali
- Il MARL cooperativo richiede che gli agenti scoprano strategie congiunte in uno spazio stato-azione combinatoriamente grande.
- Le configurazioni di coordinazione efficaci sono estremamente rare.
- La motivazione intrinseca aumenta le ricompense del compito con bonus di novità.
- L'intensità di esplorazione β deve essere attentamente regolata: troppo grande sovrasta il segnale del compito, troppo piccola impedisce la scoperta.
- Il framework affronta l'adattamento globale di β durante l'addestramento e l'allocazione del budget per agente.
- RCB (scheduling sigmoideo condizionato dal ritorno) controlla l'intensità globale.
- RSQ (metrica della Qualità del Segnale di Ricompensa) concentra il budget sugli agenti con segnali affidabili.
- Pubblicato su arXiv:2605.01865.
Entità
Istituzioni
- arXiv