MOPD: Distillazione On-Policy Multi-Rollout per LLM

ai-technology · 2026-05-14

Un nuovo framework chiamato Multi-Rollout On-Policy Distillation (MOPD) è stato sviluppato dai ricercatori per migliorare il post-addestramento dei grandi modelli linguistici utilizzando ricompense sparse da verificatori. MOPD sfrutta il gruppo di rollout locali dello studente per generare segnali insegnante più informativi, tenendo conto sia dei rollout riusciti che di quelli falliti tra pari. I successi rafforzano schemi di ragionamento validi, mentre i fallimenti forniscono intuizioni strutturate sugli errori da evitare. Il framework esamina due configurazioni di contesto tra pari: imitazione positiva tra pari e contrasto successo-fallimento. Questo metodo supera le carenze delle attuali tecniche di distillazione on-policy, che trattano ogni rollout in isolamento, ignorando altri tentativi per lo stesso prompt. Questa ricerca è disponibile su arXiv con ID 2605.12652v1.

Fatti principali

MOPD è un framework di distillazione condizionata tra pari per LLM
Utilizza ricompense sparse da verificatori che indicano il successo della traiettoria
La distillazione on-policy fornisce una supervisione più densa a livello di token
I metodi esistenti distillano ogni rollout indipendentemente
MOPD condiziona l'insegnante sia sui rollout riusciti che su quelli falliti tra pari
I successi forniscono evidenza positiva per schemi di ragionamento validi
I fallimenti forniscono evidenza negativa strutturata sugli errori da evitare
Vengono studiate due costruzioni di contesto tra pari: imitazione positiva tra pari e contrasto successo-fallimento

MOPD: Distillazione On-Policy Multi-Rollout per LLM

Fatti principali

Entità

Istituzioni

Fonti