MAD-OPD: Il Dibattito Multi-Agente Supera il Limite dell'Insegnante nella Distillazione On-Policy
I ricercatori hanno introdotto MAD-OPD (Multi-Agent Debate-driven On-Policy Distillation), una tecnica che supera i limiti dell'approccio con un singolo insegnante nella distillazione on-policy. Questo metodo utilizza un gruppo di insegnanti che discutono sullo stato on-policy dello studente, generando un'intelligenza collettiva che fornisce una guida a livello di token, con il contributo di ciascun insegnante ponderato in base alla propria confidenza dopo il dibattito. Per applicare l'OPD a compiti agentici, gli autori presentano OPAD (On-Policy Agentic Distillation), che incorpora un campionamento a livello di passo per migliorare la stabilità dell'addestramento in presenza di accumulo di errori multi-passo. Questa ricerca è disponibile su arXiv (2605.01347).
Fatti principali
- MAD-OPD utilizza il dibattito multi-agente per superare il limite del singolo insegnante nella distillazione on-policy.
- Gli insegnanti dibattono sullo stato on-policy dello studente per produrre un'intelligenza collettiva emergente.
- Il contributo di ciascun insegnante è ponderato in base alla sua confidenza post-dibattito.
- OPAD aggiunge un campionamento a livello di passo per stabilizzare l'addestramento per compiti agentici.
- L'articolo è disponibile su arXiv con ID 2605.01347.
- La distillazione on-policy addestra uno studente sulle proprie traiettorie sotto la guida a livello di token dell'insegnante.
- I metodi OPD esistenti sono limitati dal tetto di capacità di un singolo insegnante.
- L'OPD era in gran parte inesplorato nei compiti agentici prima di questo lavoro.
Entità
Istituzioni
- arXiv