ARTFEED — Contemporary Art Intelligence

Allocazione del Budget di Esplorazione in MARL Cooperativo tramite Scheduling Basato sulla Qualità

other · 2026-05-06

Un nuovo framework per l'apprendimento per rinforzo multi-agente cooperativo (MARL) affronta il problema del bilanciamento dei livelli di esplorazione per prevenire fallimenti di coordinazione o la mancata scoperta di strategie non comuni. Questo metodo integra uno scheduling sigmoideo condizionato dal ritorno (RCB) per gestire l'intensità globale insieme a una metrica per agente della Qualità del Segnale di Ricompensa (RSQ), che prioritizza le risorse di esplorazione per gli agenti che mostrano segnali di ricompensa intrinseca affidabili. Questa ricerca è stata resa disponibile su arXiv con l'identificatore 2605.01865.

Fatti principali

  • Il MARL cooperativo richiede che gli agenti scoprano strategie congiunte in uno spazio stato-azione combinatoriamente grande.
  • Le configurazioni di coordinazione efficaci sono estremamente rare.
  • La motivazione intrinseca aumenta le ricompense del compito con bonus di novità.
  • L'intensità di esplorazione β deve essere attentamente regolata: troppo grande sovrasta il segnale del compito, troppo piccola impedisce la scoperta.
  • Il framework affronta l'adattamento globale di β durante l'addestramento e l'allocazione del budget per agente.
  • RCB (scheduling sigmoideo condizionato dal ritorno) controlla l'intensità globale.
  • RSQ (metrica della Qualità del Segnale di Ricompensa) concentra il budget sugli agenti con segnali affidabili.
  • Pubblicato su arXiv:2605.01865.

Entità

Istituzioni

  • arXiv

Fonti