CCPO: Assegnazione del Credito Controfattuale per la Collaborazione Multi-Agente con LLM

other · 2026-05-27

Un approccio innovativo noto come Collaborative Credit Policy Optimization (CCPO) affronta la sfida dell'assegnazione del credito nei sistemi multi-agente basati su grandi modelli linguistici (LLM). Questo metodo trasforma i risultati a livello di squadra in segnali di apprendimento individuali per gli agenti attraverso due allocatori: la stima del credito controfattuale, che valuta il contributo di un agente confrontando i risultati reali con scenari ipotetici in cui l'agente è assente, e l'autovalutazione LLM ancorata al verificatore, che utilizza autovalutazioni e valutazioni tra pari vincolate per allocare il credito, dando priorità al risultato del verificatore esterno. Le ricompense specifiche per ruolo generate possono essere applicate con aggiornamenti stile GRPO o altre tecniche di gradiente politico. Questa strategia agnostica rispetto all'ottimizzatore mira a ridurre il free-riding in ambienti collaborativi multi-agente con LLM.

Fatti principali

CCPO è un livello di assegnazione del credito agnostico rispetto all'ottimizzatore per LLM multi-agente.
Utilizza la stima del credito controfattuale per misurare il contributo marginale di un agente.
L'autovalutazione LLM ancorata al verificatore è un allocatore esplorativo che utilizza autovalutazioni e valutazioni tra pari.
Il risultato del verificatore esterno rimane dominante nella redistribuzione del credito.
Le ricompense specifiche per ruolo possono essere consumate da aggiornamenti stile GRPO o altri metodi di gradiente politico.
CCPO affronta l'assegnazione del credito e il free-riding nei sistemi collaborativi multi-agente con LLM.
Il metodo converte i risultati a livello di squadra in segnali di apprendimento specifici per agente.
L'articolo è disponibile su arXiv con identificatore 2603.21563.

CCPO: Assegnazione del Credito Controfattuale per la Collaborazione Multi-Agente con LLM

Fatti principali

Entità

Istituzioni

Fonti