Modello Linguistico Decisionale per il Processo Decisionale Sequenziale Multi-Agente
È stato introdotto un nuovo framework chiamato Modello Linguistico Decisionale (DLM) per affrontare i problemi nell'apprendimento per rinforzo multi-agente offline (MARL). DLM reinterpreta il processo decisionale multi-agente come una sfida di previsione di sequenze simile a un dialogo, utilizzando un addestramento centralizzato ma consentendo un'esecuzione decentralizzata. Impiega grandi modelli linguistici (LLM) per gestire osservazioni e azioni eterogenee, superando così i vincoli dei formati rigidi. Il processo di addestramento include un fine-tuning supervisionato su dataset che simulano dialoghi e un'ottimizzazione delle politiche relativa di gruppo per migliorare la robustezza.
Fatti principali
- DLM è proposto per il processo decisionale sequenziale multi-agente offline.
- Utilizza un approccio di previsione di sequenze in stile dialogo.
- L'addestramento include fine-tuning supervisionato e ottimizzazione delle politiche relativa di gruppo.
- DLM sfrutta gli LLM per una modellazione flessibile di osservazioni e azioni.
- Il framework opera con addestramento centralizzato ed esecuzione decentralizzata.
- Mira a migliorare la generalizzazione da dataset offline.
- L'approccio affronta i limiti dei formati di osservazione fissi e degli spazi di azione.
- L'articolo è disponibile su arXiv con ID 2604.23557.
Entità
Istituzioni
- arXiv