Apprendimento per Rinforzo Multi-Agente per Workflow LLM: Quando è Utile?

ai-technology · 2026-05-26

Un recente preprint su arXiv (2605.24202) esplora le condizioni in cui l'addestramento end-to-end con apprendimento per rinforzo (RL) migliora i workflow LLM multi-agente rispetto ai modelli di base. La ricerca confronta l'addestramento con Politica Condivisa, in cui una singola politica viene aggiornata per tutti i ruoli, con l'addestramento con Politica Isolata, in cui ogni ruolo mantiene parametri distinti. Gli esperimenti coprono i workflow Eval-Opt, Voting e Orch-Workers, insieme a compiti di matematica e codice, utilizzando modelli con 0,6B, 1,7B e 4B parametri. I risultati indicano che, sebbene l'RL multi-agente generalmente superi i modelli di base, i miglioramenti sono influenzati dall'interazione tra workflow, compito e scala, piuttosto che dalla sola condivisione della politica. La Politica Isolata spesso raggiunge una precisione massima più elevata ma è più suscettibile a cali significativi di precisione, mentre l'addestramento con Politica Condivisa ridistribuisce i fallimenti in diversi modelli qualitativi.

Fatti principali

Il preprint arXiv 2605.24202 studia l'RL multi-agente per workflow LLM.
Confronta l'addestramento con Politica Condivisa e Politica Isolata.
Gli esperimenti utilizzano i workflow Eval-Opt, Voting e Orch-Workers.
I compiti includono matematica e codice.
Scale dei modelli: 0,6B, 1,7B, 4B parametri.
L'RL multi-agente di solito migliora rispetto ai modelli di base.
I guadagni dipendono dal workflow, dal compito e dalla scala.
La Politica Isolata ha una precisione massima più elevata ma più cali di precisione.
La Politica Condivisa ridistribuisce i modelli di fallimento.

Apprendimento per Rinforzo Multi-Agente per Workflow LLM: Quando è Utile?

Fatti principali

Entità

Istituzioni

Fonti