Strato modulare di stima dello stato potenzia il MARL sotto ritardi di comunicazione
I ricercatori hanno introdotto un innovativo strato di stima modulare volto a migliorare i sistemi di apprendimento per rinforzo multi-agente (MARL). Questo nuovo approccio affronta sfide come dati obsoleti, ritardi di comunicazione imprevedibili e perdita di pacchetti di dati. Combinando un modello di transizione Gated appreso con un filtro di Kalman ricorsivo, il sistema sintetizza efficacemente stati in tempo reale da fonti di dati disparate. È importante notare che può essere integrato senza soluzione di continuità nei framework MARL esistenti senza alterare i processi di addestramento originali o le strutture di ricompensa. I test iniziali su vari benchmark multi-agente e di controllo continuo evidenziano i suoi significativi miglioramenti delle prestazioni, mostrando il suo potenziale per far progredire le applicazioni MARL.
Fatti principali
- I sistemi MARL reali spesso affrontano osservazioni obsolete, ritardi di comunicazione e perdita di pacchetti.
- Le politiche addestrate in condizioni sincrone idealizzate degradano con feedback obsoleto.
- Uno strato di stima dello stato in fase di esecuzione modulare sostituisce le osservazioni ritardate con stime dello stato corrente.
- Il framework utilizza un modello di transizione Gated appreso e un filtraggio di Kalman ricorsivo.
- È un plug-in per politiche pre-addestrate, che non richiede riaddestramento.
- La valutazione copre benchmark multi-agente e di controllo continuo.
Entità
—