Controller di Critica e Instradamento per Sistemi LLM Multi-Agente
Un nuovo controller di critica e instradamento per sistemi LLM multi-agente tratta il coordinamento come un problema decisionale sequenziale, consentendo un perfezionamento iterativo delle bozze anziché una selezione unica del modello. Il controller valuta le bozze a ogni turno, decidendo se fermarsi o selezionare un altro agente per il miglioramento. È formulato come un MDP a orizzonte finito con vincoli di utilizzo degli agenti, utilizzando una ricompensa composita e gradienti di policy sotto un obiettivo rilassato lagrangiano. Esperimenti estesi ne dimostrano l'efficacia.
Fatti principali
- Propone un controller di critica e instradamento per sistemi LLM multi-agente
- Inquadra il coordinamento multi-agente come un problema decisionale sequenziale
- Il controller valuta la bozza corrente a ogni turno
- Decide se fermarsi o continuare e seleziona l'agente successivo se necessario
- Formulato come Processo Decisionale di Markov (MDP) a orizzonte finito
- Include vincoli espliciti di utilizzo degli agenti
- Ricompensa composita progettata per le decisioni del controller attraverso i turni
- Ottimizzato tramite gradienti di policy sotto un obiettivo rilassato lagrangiano
Entità
Istituzioni
- arXiv