CCPO: Assegnazione del Credito Controfattuale per la Collaborazione Multi-Agente con LLM
Un approccio innovativo noto come Collaborative Credit Policy Optimization (CCPO) affronta la sfida dell'assegnazione del credito nei sistemi multi-agente basati su grandi modelli linguistici (LLM). Questo metodo trasforma i risultati a livello di squadra in segnali di apprendimento individuali per gli agenti attraverso due allocatori: la stima del credito controfattuale, che valuta il contributo di un agente confrontando i risultati reali con scenari ipotetici in cui l'agente è assente, e l'autovalutazione LLM ancorata al verificatore, che utilizza autovalutazioni e valutazioni tra pari vincolate per allocare il credito, dando priorità al risultato del verificatore esterno. Le ricompense specifiche per ruolo generate possono essere applicate con aggiornamenti stile GRPO o altre tecniche di gradiente politico. Questa strategia agnostica rispetto all'ottimizzatore mira a ridurre il free-riding in ambienti collaborativi multi-agente con LLM.
Fatti principali
- CCPO è un livello di assegnazione del credito agnostico rispetto all'ottimizzatore per LLM multi-agente.
- Utilizza la stima del credito controfattuale per misurare il contributo marginale di un agente.
- L'autovalutazione LLM ancorata al verificatore è un allocatore esplorativo che utilizza autovalutazioni e valutazioni tra pari.
- Il risultato del verificatore esterno rimane dominante nella redistribuzione del credito.
- Le ricompense specifiche per ruolo possono essere consumate da aggiornamenti stile GRPO o altri metodi di gradiente politico.
- CCPO affronta l'assegnazione del credito e il free-riding nei sistemi collaborativi multi-agente con LLM.
- Il metodo converte i risultati a livello di squadra in segnali di apprendimento specifici per agente.
- L'articolo è disponibile su arXiv con identificatore 2603.21563.
Entità
Istituzioni
- arXiv