Controller di Critica e Instradamento per Sistemi LLM Multi-Agente

ai-technology · 2026-05-12

Un nuovo controller di critica e instradamento per sistemi LLM multi-agente tratta il coordinamento come un problema decisionale sequenziale, consentendo un perfezionamento iterativo delle bozze anziché una selezione unica del modello. Il controller valuta le bozze a ogni turno, decidendo se fermarsi o selezionare un altro agente per il miglioramento. È formulato come un MDP a orizzonte finito con vincoli di utilizzo degli agenti, utilizzando una ricompensa composita e gradienti di policy sotto un obiettivo rilassato lagrangiano. Esperimenti estesi ne dimostrano l'efficacia.

Fatti principali

Propone un controller di critica e instradamento per sistemi LLM multi-agente
Inquadra il coordinamento multi-agente come un problema decisionale sequenziale
Il controller valuta la bozza corrente a ogni turno
Decide se fermarsi o continuare e seleziona l'agente successivo se necessario
Formulato come Processo Decisionale di Markov (MDP) a orizzonte finito
Include vincoli espliciti di utilizzo degli agenti
Ricompensa composita progettata per le decisioni del controller attraverso i turni
Ottimizzato tramite gradienti di policy sotto un obiettivo rilassato lagrangiano

Controller di Critica e Instradamento per Sistemi LLM Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti