ARTFEED — Contemporary Art Intelligence

Ritardi tra Passi Temporali nell'Apprendimento per Rinforzo Multi-Agente: Guadagno della Comunicazione vs Costo del Ritardo

other · 2026-05-27

Un recente articolo di ricerca da arXiv (2604.03785) affronta il problema dei ritardi di comunicazione tra passi temporali nell'apprendimento per rinforzo multi-agente cooperativo in presenza di osservabilità parziale. I ricercatori presentano il gioco di Markov parzialmente osservabile con comunicazione ritardata (DeComm-POMG) e analizzano l'impatto di un messaggio separandolo in guadagno della comunicazione e costo del ritardo, portando allo sviluppo della metrica CGDC. Stabiliscono un limite di perdita di valore che indica che il degrado causato da messaggi ritardati è limitato da una somma scontata del divario informativo tra le distribuzioni delle azioni risultanti da messaggi tempestivi rispetto a quelli ritardati. Per affrontare il disallineamento temporale e le informazioni obsolete nella coordinazione multi-agente, introducono CDCMA, un framework attore-critico che richiede messaggi solo quando il CGDC previsto è positivo e anticipa le osservazioni future.

Fatti principali

  • arXiv:2604.03785v2
  • Introduce la formalizzazione DeComm-POMG
  • Decompone l'effetto del messaggio in guadagno della comunicazione e costo del ritardo (CGDC)
  • Stabilisce un limite di perdita di valore per messaggi ritardati
  • Propone il framework attore-critico CDCMA
  • CDCMA richiede messaggi solo quando il CGDC previsto è positivo
  • Affronta i ritardi tra passi temporali nel MARL cooperativo
  • Si concentra su ambienti con osservabilità parziale

Entità

Istituzioni

  • arXiv

Fonti