UnityMAS-O: Un framework generale di ottimizzazione RL per sistemi multi-agente basati su LLM

other · 2026-05-27

Il preprint arXiv 2605.26646 presenta UnityMAS-O, un framework progettato per ottimizzare l'apprendimento per rinforzo in sistemi multi-agente che utilizzano grandi modelli linguistici (LLM). A differenza degli attuali framework di post-addestramento RL focalizzati sull'ottimizzazione di una singola policy, UnityMAS-O considera l'intero workflow come unità di ottimizzazione. Ciò consente workflow multi-agente personalizzabili, interazioni strutturate, assegnazione di crediti specifici per ruolo e condivisione regolabile dei parametri. Il framework concettualizza i workflow utilizzando quattro oggetti primari: ruoli logici degli agenti, traiettorie grafiche, ricompense definite dall'utente e mappature agente-modello, che facilitano la condivisione completa, la separazione totale e la condivisione parziale disaccoppiando gli agenti logici dai loro parametri fisici del modello.

Fatti principali

UnityMAS-O è un framework generale di ottimizzazione RL per sistemi multi-agente basati su LLM.
Tratta l'intero workflow come unità di ottimizzazione.
Gli attuali framework di post-addestramento RL mirano principalmente all'ottimizzazione di una singola policy.
UnityMAS-O supporta workflow multi-agente definiti dall'utente, interazione strutturata, assegnazione di crediti specifici per ruolo e condivisione configurabile dei parametri.
Il framework rappresenta i workflow attraverso quattro oggetti di prima classe: ruoli logici degli agenti, traiettorie grafiche, ricompense definite dall'utente e mappature agente-modello.
Disaccoppia gli agenti logici dai parametri fisici del modello.
Supporta la condivisione completa, la separazione totale e la condivisione parziale dei parametri.
L'articolo è disponibile su arXiv con ID 2605.26646.

UnityMAS-O: Un framework generale di ottimizzazione RL per sistemi multi-agente basati su LLM

Fatti principali

Entità

Istituzioni

Fonti