MAD-OPD: Il Dibattito Multi-Agente Supera il Limite dell'Insegnante nella Distillazione On-Policy

other · 2026-05-06

I ricercatori hanno introdotto MAD-OPD (Multi-Agent Debate-driven On-Policy Distillation), una tecnica che supera i limiti dell'approccio con un singolo insegnante nella distillazione on-policy. Questo metodo utilizza un gruppo di insegnanti che discutono sullo stato on-policy dello studente, generando un'intelligenza collettiva che fornisce una guida a livello di token, con il contributo di ciascun insegnante ponderato in base alla propria confidenza dopo il dibattito. Per applicare l'OPD a compiti agentici, gli autori presentano OPAD (On-Policy Agentic Distillation), che incorpora un campionamento a livello di passo per migliorare la stabilità dell'addestramento in presenza di accumulo di errori multi-passo. Questa ricerca è disponibile su arXiv (2605.01347).

Fatti principali

MAD-OPD utilizza il dibattito multi-agente per superare il limite del singolo insegnante nella distillazione on-policy.
Gli insegnanti dibattono sullo stato on-policy dello studente per produrre un'intelligenza collettiva emergente.
Il contributo di ciascun insegnante è ponderato in base alla sua confidenza post-dibattito.
OPAD aggiunge un campionamento a livello di passo per stabilizzare l'addestramento per compiti agentici.
L'articolo è disponibile su arXiv con ID 2605.01347.
La distillazione on-policy addestra uno studente sulle proprie traiettorie sotto la guida a livello di token dell'insegnante.
I metodi OPD esistenti sono limitati dal tetto di capacità di un singolo insegnante.
L'OPD era in gran parte inesplorato nei compiti agentici prima di questo lavoro.

MAD-OPD: Il Dibattito Multi-Agente Supera il Limite dell'Insegnante nella Distillazione On-Policy

Fatti principali

Entità

Istituzioni

Fonti