ARTFEED — Contemporary Art Intelligence

MOPD: Distillazione On-Policy Multi-Rollout per LLM

ai-technology · 2026-05-14

Un nuovo framework chiamato Multi-Rollout On-Policy Distillation (MOPD) è stato sviluppato dai ricercatori per migliorare il post-addestramento dei grandi modelli linguistici utilizzando ricompense sparse da verificatori. MOPD sfrutta il gruppo di rollout locali dello studente per generare segnali insegnante più informativi, tenendo conto sia dei rollout riusciti che di quelli falliti tra pari. I successi rafforzano schemi di ragionamento validi, mentre i fallimenti forniscono intuizioni strutturate sugli errori da evitare. Il framework esamina due configurazioni di contesto tra pari: imitazione positiva tra pari e contrasto successo-fallimento. Questo metodo supera le carenze delle attuali tecniche di distillazione on-policy, che trattano ogni rollout in isolamento, ignorando altri tentativi per lo stesso prompt. Questa ricerca è disponibile su arXiv con ID 2605.12652v1.

Fatti principali

  • MOPD è un framework di distillazione condizionata tra pari per LLM
  • Utilizza ricompense sparse da verificatori che indicano il successo della traiettoria
  • La distillazione on-policy fornisce una supervisione più densa a livello di token
  • I metodi esistenti distillano ogni rollout indipendentemente
  • MOPD condiziona l'insegnante sia sui rollout riusciti che su quelli falliti tra pari
  • I successi forniscono evidenza positiva per schemi di ragionamento validi
  • I fallimenti forniscono evidenza negativa strutturata sugli errori da evitare
  • Vengono studiate due costruzioni di contesto tra pari: imitazione positiva tra pari e contrasto successo-fallimento

Entità

Istituzioni

  • arXiv

Fonti