ARTFEED — Contemporary Art Intelligence

TRACER: Un framework di rinforzo a livello di turno per il ragionamento multi-LLM

ai-technology · 2026-05-28

I ricercatori hanno introdotto TRACER, un framework di rinforzo a livello di turno progettato per migliorare il ragionamento cooperativo tra più modelli linguistici di grandi dimensioni. Il framework affronta le sfide nei sistemi multi-agente come ricompense sparse, free-riding a livello di ruolo, overhead di addestramento eccessivo, collaborazione basata solo sull'imitazione e ottimi locali oscillanti. TRACER separa il processo decisionale in un livello controller-rimpianto e un livello generazione-credito. Nel livello controller-rimpianto, i controller utilizzano il regret matching per decidere se gli agenti devono parlare o saltare un turno. Il livello generazione-credito ottimizza gli interventi del proponente e del revisore utilizzando ricompense GSPO specifiche per ruolo. Questo approccio assegna credito sia a livello di modalità d'azione che di enunciato. Il lavoro è stato pubblicato su arXiv con ID 2605.28699.

Fatti principali

  • TRACER è un framework di rinforzo a livello di turno per il ragionamento cooperativo multi-LLM.
  • Affronta ricompense sparse, free-riding a livello di ruolo e overhead di addestramento eccessivo.
  • Il framework separa il processo decisionale in un livello controller-rimpianto e un livello generazione-credito.
  • I controller utilizzano il regret matching per decidere l'alternanza dei turni degli agenti.
  • Il livello generazione-credito utilizza ricompense GSPO specifiche per ruolo.
  • TRACER assegna credito a livello di modalità d'azione e di enunciato.
  • L'articolo è disponibile su arXiv con ID 2605.28699.
  • Il framework mira a combinare l'apprendimento per rinforzo e il prompting multi-agente.

Entità

Istituzioni

  • arXiv

Fonti