Ritardi tra Passi Temporali nell'Apprendimento per Rinforzo Multi-Agente: Guadagno della Comunicazione vs Costo del Ritardo
Un recente articolo di ricerca da arXiv (2604.03785) affronta il problema dei ritardi di comunicazione tra passi temporali nell'apprendimento per rinforzo multi-agente cooperativo in presenza di osservabilità parziale. I ricercatori presentano il gioco di Markov parzialmente osservabile con comunicazione ritardata (DeComm-POMG) e analizzano l'impatto di un messaggio separandolo in guadagno della comunicazione e costo del ritardo, portando allo sviluppo della metrica CGDC. Stabiliscono un limite di perdita di valore che indica che il degrado causato da messaggi ritardati è limitato da una somma scontata del divario informativo tra le distribuzioni delle azioni risultanti da messaggi tempestivi rispetto a quelli ritardati. Per affrontare il disallineamento temporale e le informazioni obsolete nella coordinazione multi-agente, introducono CDCMA, un framework attore-critico che richiede messaggi solo quando il CGDC previsto è positivo e anticipa le osservazioni future.
Fatti principali
- arXiv:2604.03785v2
- Introduce la formalizzazione DeComm-POMG
- Decompone l'effetto del messaggio in guadagno della comunicazione e costo del ritardo (CGDC)
- Stabilisce un limite di perdita di valore per messaggi ritardati
- Propone il framework attore-critico CDCMA
- CDCMA richiede messaggi solo quando il CGDC previsto è positivo
- Affronta i ritardi tra passi temporali nel MARL cooperativo
- Si concentra su ambienti con osservabilità parziale
Entità
Istituzioni
- arXiv