Il Consenso Distribuito Abilita l'Apprendimento per Rinforzo Multi-Agente Vincolato e Scalabile

other · 2026-06-01

Un nuovo metodo distribuito per l'Apprendimento per Rinforzo Multi-Agente (MARL) vincolato integra l'apprendimento di politiche con stato aumentato e il consenso vicino-a-vicino sulle variabili duali. Questo approccio è progettato per sistemi in cui gli agenti hanno dinamiche separabili ma devono collaborare per soddisfare vincoli globali sulle risorse. I risultati empirici indicano che l'apprendimento indipendente non produce soluzioni fattibili in questi scenari. Un contributo significativo di questo lavoro è la dimostrazione che un consenso leggero sui moltiplicatori di Lagrange è sufficiente per imporre vincoli globali mantenendo la scalabilità. Ogni agente sviluppa offline una singola politica aumentata, basata sullo stato locale e su una variabile duale che codifica il feedback del vincolo. Durante l'operatività, gli agenti raggiungono un consenso su questa variabile duale attraverso comunicazione locale. Il metodo è testato su una sfida di allocazione di risorse multi-robot, mostrandone la fattibilità e la scalabilità.

Fatti principali

Il metodo combina l'apprendimento di politiche con stato aumentato e il consenso distribuito sulle variabili duali.
Si rivolge a sistemi con dinamiche separabili e vincoli globali sulle risorse.
L'apprendimento indipendente non produce soluzioni fattibili in tali contesti.
Il consenso leggero vicino-a-vicino sui moltiplicatori di Lagrange è sufficiente per l'imposizione di vincoli globali.
Ogni agente apprende offline una singola politica aumentata.
La politica è condizionata dallo stato locale e da una variabile duale che codifica il feedback del vincolo.
Durante l'esecuzione, gli agenti raggiungono un accordo sulla variabile duale attraverso comunicazione locale.
Validato su un problema di allocazione di risorse multi-robot.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01