Prune-OPD: Troncamento dinamico del rollout per una distillazione efficiente del ragionamento a lungo orizzonte

ai-technology · 2026-05-11

Prune-OPD è un framework introdotto per affrontare i problemi di inefficienza e affidabilità nella distillazione on-policy (OPD) per compiti di ragionamento a lungo orizzonte. L'OPD utilizza ricompense dense del teacher per migliorare i modelli studente, ma man mano che il prefisso generato dallo studente si allontana dal processo di pensiero del teacher, la ricompensa del teacher perde sfruttabilità locale, portando a una qualità degradata della ricompensa e a uno spreco computazionale. Prune-OPD allinea dinamicamente i budget di addestramento con la qualità della supervisione monitorando continuamente la compatibilità locale tra le previsioni dello studente e del teacher tramite il top-k overlap. Quando viene rilevato un grave prefix-drift, riduce il peso delle ricompense successive inaffidabili e attiva il troncamento dinamico del rollout, interrompendo la generazione inutile. L'articolo è disponibile su arXiv con ID 2605.07804.

Fatti principali

Prune-OPD è un framework per la distillazione on-policy nel ragionamento a lungo orizzonte.
Affronta il problema del prefix-drift in cui lo studente si allontana dal teacher.
Utilizza il top-k overlap per monitorare la compatibilità locale.
In caso di grave drift, riduce il peso delle ricompense inaffidabili e tronca il rollout.
L'approccio riduce lo spreco computazionale.
L'articolo è su arXiv: 2605.07804.
È un annuncio di tipo cross-type.
Il metodo allinea dinamicamente i budget di addestramento con la qualità della supervisione.

Prune-OPD: Troncamento dinamico del rollout per una distillazione efficiente del ragionamento a lungo orizzonte

Fatti principali

Entità

Istituzioni

Fonti