ARTFEED — Contemporary Art Intelligence

Modello Linguistico Decisionale per il Processo Decisionale Sequenziale Multi-Agente

ai-technology · 2026-04-29

È stato introdotto un nuovo framework chiamato Modello Linguistico Decisionale (DLM) per affrontare i problemi nell'apprendimento per rinforzo multi-agente offline (MARL). DLM reinterpreta il processo decisionale multi-agente come una sfida di previsione di sequenze simile a un dialogo, utilizzando un addestramento centralizzato ma consentendo un'esecuzione decentralizzata. Impiega grandi modelli linguistici (LLM) per gestire osservazioni e azioni eterogenee, superando così i vincoli dei formati rigidi. Il processo di addestramento include un fine-tuning supervisionato su dataset che simulano dialoghi e un'ottimizzazione delle politiche relativa di gruppo per migliorare la robustezza.

Fatti principali

  • DLM è proposto per il processo decisionale sequenziale multi-agente offline.
  • Utilizza un approccio di previsione di sequenze in stile dialogo.
  • L'addestramento include fine-tuning supervisionato e ottimizzazione delle politiche relativa di gruppo.
  • DLM sfrutta gli LLM per una modellazione flessibile di osservazioni e azioni.
  • Il framework opera con addestramento centralizzato ed esecuzione decentralizzata.
  • Mira a migliorare la generalizzazione da dataset offline.
  • L'approccio affronta i limiti dei formati di osservazione fissi e degli spazi di azione.
  • L'articolo è disponibile su arXiv con ID 2604.23557.

Entità

Istituzioni

  • arXiv

Fonti