Trattare i Compagni di Squadra come Componenti Apprendibili nei Modelli del Mondo MARL
Una nuova strategia per l'apprendimento per rinforzo multi-agente cooperativo (MARL) suggerisce di considerare i compagni di squadra come elementi strutturati e apprendibili all'interno del modello del mondo di un agente. Questa architettura, basata su un modello ricorrente dello spazio degli stati (RSSM) in stile Dreamer, separa lo stato latente in componenti che rappresentano sia l'ambiente che i compagni di squadra. Una testa ausiliaria di Teoria della Mente (ToM) deduce rappresentazioni latenti dei comportamenti del partner—come carattere, intenzioni e azioni previste—da traiettorie incomplete. Questi latenti dei compagni di squadra condizionano sia l'attore che il critico, permettendo all'agente di immaginare e adattarsi a vari collaboratori. Questo approccio supera le sfide degli attuali modelli del mondo nella gestione dell'incertezza introdotta dai compagni di squadra, aprendo la strada a una migliore generalizzazione ed efficienza campionaria nel MARL cooperativo. Il documento è disponibile su arXiv con l'identificatore 2605.31361.
Fatti principali
- Propone di trattare i compagni di squadra come componenti strutturati e apprendibili all'interno del modello del mondo di un agente.
- L'architettura fattorizza lo stato latente dell'RSSM in stile Dreamer in componenti ambientali e dei compagni di squadra.
- Apprende una testa ausiliaria di Teoria della Mente (ToM) per dedurre embeddings latenti del comportamento del partner.
- I latenti dei compagni di squadra condizionano l'attore e il critico.
- Permette all'agente di immaginare e adattarsi a diversi collaboratori.
- Affronta la limitazione dei modelli del mondo nel gestire l'incertezza indotta dai compagni di squadra.
- Mira a migliorare la generalizzazione e l'efficienza campionaria nel MARL cooperativo.
- Documento disponibile su arXiv: 2605.31361.
Entità
Istituzioni
- arXiv