Apprendimento per Rinforzo Multi-Agente per Workflow LLM: Quando è Utile?
Un recente preprint su arXiv (2605.24202) esplora le condizioni in cui l'addestramento end-to-end con apprendimento per rinforzo (RL) migliora i workflow LLM multi-agente rispetto ai modelli di base. La ricerca confronta l'addestramento con Politica Condivisa, in cui una singola politica viene aggiornata per tutti i ruoli, con l'addestramento con Politica Isolata, in cui ogni ruolo mantiene parametri distinti. Gli esperimenti coprono i workflow Eval-Opt, Voting e Orch-Workers, insieme a compiti di matematica e codice, utilizzando modelli con 0,6B, 1,7B e 4B parametri. I risultati indicano che, sebbene l'RL multi-agente generalmente superi i modelli di base, i miglioramenti sono influenzati dall'interazione tra workflow, compito e scala, piuttosto che dalla sola condivisione della politica. La Politica Isolata spesso raggiunge una precisione massima più elevata ma è più suscettibile a cali significativi di precisione, mentre l'addestramento con Politica Condivisa ridistribuisce i fallimenti in diversi modelli qualitativi.
Fatti principali
- Il preprint arXiv 2605.24202 studia l'RL multi-agente per workflow LLM.
- Confronta l'addestramento con Politica Condivisa e Politica Isolata.
- Gli esperimenti utilizzano i workflow Eval-Opt, Voting e Orch-Workers.
- I compiti includono matematica e codice.
- Scale dei modelli: 0,6B, 1,7B, 4B parametri.
- L'RL multi-agente di solito migliora rispetto ai modelli di base.
- I guadagni dipendono dal workflow, dal compito e dalla scala.
- La Politica Isolata ha una precisione massima più elevata ma più cali di precisione.
- La Politica Condivisa ridistribuisce i modelli di fallimento.
Entità
Istituzioni
- arXiv