CL-MARL: Apprendimento Curricolare Adattivo per l'Apprendimento per Rinforzo Multi-Agente

other · 2026-05-07

Una recente pubblicazione su arXiv presenta CL-MARL, un framework innovativo di apprendimento curricolare progettato per l'apprendimento per rinforzo multi-agente (MARL) che affronta il problema della meta-stazionarietà ambientale, in cui gli agenti vengono tipicamente addestrati a un livello di difficoltà costante. Gli autori sostengono che questo approccio limita la generalizzazione delle politiche e porta a ottimi locali superficiali. CL-MARL modifica la forza dell'avversario in tempo reale in base al feedback del tasso di vittoria, adattando la difficoltà del compito man mano che gli agenti migliorano. Il suo scheduler, FlexDiff, integra l'analisi delle tendenze basata sul momento con il monitoraggio a doppia curva dei risultati di addestramento e valutazione per garantire regolazioni fluide della difficoltà senza bisogno di calibrazione manuale. Per affrontare la non-stazionarietà e i premi globali sparsi derivanti da un curriculum mutevole, l'articolo introduce il Counterfactual Group Relative Policy Advantage (CGRPA), migliorando le tecniche di stima del vantaggio esistenti. Questa ricerca è disponibile su arXiv con l'identificatore 2506.07548.

Fatti principali

L'articolo introduce CL-MARL, un framework di apprendimento curricolare dinamico per MARL
Affronta la meta-stazionarietà ambientale: regime di addestramento a difficoltà statica
CL-MARL adatta la forza dell'avversario online dai segnali del tasso di vittoria
Lo scheduler FlexDiff fonde la stima delle tendenze basata sul momento con il monitoraggio a doppia curva a finestra scorrevole
CGRPA estende la stima del vantaggio per gestire la non-stazionarietà e i premi sparsi
Pubblicato su arXiv con ID 2506.07548
Tipo: sostituzione (versione aggiornata)
Focus su compiti cooperativi contro avversari scriptati

CL-MARL: Apprendimento Curricolare Adattivo per l'Apprendimento per Rinforzo Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti