Il Consenso Distribuito Abilita l'Apprendimento per Rinforzo Multi-Agente Vincolato e Scalabile
Un nuovo metodo distribuito per l'Apprendimento per Rinforzo Multi-Agente (MARL) vincolato integra l'apprendimento di politiche con stato aumentato e il consenso vicino-a-vicino sulle variabili duali. Questo approccio è progettato per sistemi in cui gli agenti hanno dinamiche separabili ma devono collaborare per soddisfare vincoli globali sulle risorse. I risultati empirici indicano che l'apprendimento indipendente non produce soluzioni fattibili in questi scenari. Un contributo significativo di questo lavoro è la dimostrazione che un consenso leggero sui moltiplicatori di Lagrange è sufficiente per imporre vincoli globali mantenendo la scalabilità. Ogni agente sviluppa offline una singola politica aumentata, basata sullo stato locale e su una variabile duale che codifica il feedback del vincolo. Durante l'operatività, gli agenti raggiungono un consenso su questa variabile duale attraverso comunicazione locale. Il metodo è testato su una sfida di allocazione di risorse multi-robot, mostrandone la fattibilità e la scalabilità.
Fatti principali
- Il metodo combina l'apprendimento di politiche con stato aumentato e il consenso distribuito sulle variabili duali.
- Si rivolge a sistemi con dinamiche separabili e vincoli globali sulle risorse.
- L'apprendimento indipendente non produce soluzioni fattibili in tali contesti.
- Il consenso leggero vicino-a-vicino sui moltiplicatori di Lagrange è sufficiente per l'imposizione di vincoli globali.
- Ogni agente apprende offline una singola politica aumentata.
- La politica è condizionata dallo stato locale e da una variabile duale che codifica il feedback del vincolo.
- Durante l'esecuzione, gli agenti raggiungono un accordo sulla variabile duale attraverso comunicazione locale.
- Validato su un problema di allocazione di risorse multi-robot.
Entità
—