Modello Linguistico Decisionale per il Processo Decisionale Sequenziale Multi-Agente

ai-technology · 2026-04-29

È stato introdotto un nuovo framework chiamato Modello Linguistico Decisionale (DLM) per affrontare i problemi nell'apprendimento per rinforzo multi-agente offline (MARL). DLM reinterpreta il processo decisionale multi-agente come una sfida di previsione di sequenze simile a un dialogo, utilizzando un addestramento centralizzato ma consentendo un'esecuzione decentralizzata. Impiega grandi modelli linguistici (LLM) per gestire osservazioni e azioni eterogenee, superando così i vincoli dei formati rigidi. Il processo di addestramento include un fine-tuning supervisionato su dataset che simulano dialoghi e un'ottimizzazione delle politiche relativa di gruppo per migliorare la robustezza.

Fatti principali

DLM è proposto per il processo decisionale sequenziale multi-agente offline.
Utilizza un approccio di previsione di sequenze in stile dialogo.
L'addestramento include fine-tuning supervisionato e ottimizzazione delle politiche relativa di gruppo.
DLM sfrutta gli LLM per una modellazione flessibile di osservazioni e azioni.
Il framework opera con addestramento centralizzato ed esecuzione decentralizzata.
Mira a migliorare la generalizzazione da dataset offline.
L'approccio affronta i limiti dei formati di osservazione fissi e degli spazi di azione.
L'articolo è disponibile su arXiv con ID 2604.23557.

Modello Linguistico Decisionale per il Processo Decisionale Sequenziale Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti