CL-MARL: Apprendimento Curricolare Adattivo per l'Apprendimento per Rinforzo Multi-Agente
Una recente pubblicazione su arXiv presenta CL-MARL, un framework innovativo di apprendimento curricolare progettato per l'apprendimento per rinforzo multi-agente (MARL) che affronta il problema della meta-stazionarietà ambientale, in cui gli agenti vengono tipicamente addestrati a un livello di difficoltà costante. Gli autori sostengono che questo approccio limita la generalizzazione delle politiche e porta a ottimi locali superficiali. CL-MARL modifica la forza dell'avversario in tempo reale in base al feedback del tasso di vittoria, adattando la difficoltà del compito man mano che gli agenti migliorano. Il suo scheduler, FlexDiff, integra l'analisi delle tendenze basata sul momento con il monitoraggio a doppia curva dei risultati di addestramento e valutazione per garantire regolazioni fluide della difficoltà senza bisogno di calibrazione manuale. Per affrontare la non-stazionarietà e i premi globali sparsi derivanti da un curriculum mutevole, l'articolo introduce il Counterfactual Group Relative Policy Advantage (CGRPA), migliorando le tecniche di stima del vantaggio esistenti. Questa ricerca è disponibile su arXiv con l'identificatore 2506.07548.
Fatti principali
- L'articolo introduce CL-MARL, un framework di apprendimento curricolare dinamico per MARL
- Affronta la meta-stazionarietà ambientale: regime di addestramento a difficoltà statica
- CL-MARL adatta la forza dell'avversario online dai segnali del tasso di vittoria
- Lo scheduler FlexDiff fonde la stima delle tendenze basata sul momento con il monitoraggio a doppia curva a finestra scorrevole
- CGRPA estende la stima del vantaggio per gestire la non-stazionarietà e i premi sparsi
- Pubblicato su arXiv con ID 2506.07548
- Tipo: sostituzione (versione aggiornata)
- Focus su compiti cooperativi contro avversari scriptati
Entità
Istituzioni
- arXiv