TRACER: Un framework di rinforzo a livello di turno per il ragionamento multi-LLM

ai-technology · 2026-05-28

I ricercatori hanno introdotto TRACER, un framework di rinforzo a livello di turno progettato per migliorare il ragionamento cooperativo tra più modelli linguistici di grandi dimensioni. Il framework affronta le sfide nei sistemi multi-agente come ricompense sparse, free-riding a livello di ruolo, overhead di addestramento eccessivo, collaborazione basata solo sull'imitazione e ottimi locali oscillanti. TRACER separa il processo decisionale in un livello controller-rimpianto e un livello generazione-credito. Nel livello controller-rimpianto, i controller utilizzano il regret matching per decidere se gli agenti devono parlare o saltare un turno. Il livello generazione-credito ottimizza gli interventi del proponente e del revisore utilizzando ricompense GSPO specifiche per ruolo. Questo approccio assegna credito sia a livello di modalità d'azione che di enunciato. Il lavoro è stato pubblicato su arXiv con ID 2605.28699.

Fatti principali

TRACER è un framework di rinforzo a livello di turno per il ragionamento cooperativo multi-LLM.
Affronta ricompense sparse, free-riding a livello di ruolo e overhead di addestramento eccessivo.
Il framework separa il processo decisionale in un livello controller-rimpianto e un livello generazione-credito.
I controller utilizzano il regret matching per decidere l'alternanza dei turni degli agenti.
Il livello generazione-credito utilizza ricompense GSPO specifiche per ruolo.
TRACER assegna credito a livello di modalità d'azione e di enunciato.
L'articolo è disponibile su arXiv con ID 2605.28699.
Il framework mira a combinare l'apprendimento per rinforzo e il prompting multi-agente.

TRACER: Un framework di rinforzo a livello di turno per il ragionamento multi-LLM

Fatti principali

Entità

Istituzioni

Fonti