OPSD comprime piuttosto che correggere in tracce di ragionamento lunghe

publication · 2026-05-09

Un recente articolo di ricerca pubblicato su arXiv (2605.06188) esamina l'On-Policy Self-Distillation (OPSD) come sostituto del Reinforcement Learning with Verifiable Rewards (RLVR) nei modelli di ragionamento. OPSD migliora l'accuratezza e minimizza la lunghezza delle risposte in output brevi attraverso l'assegnazione del credito a livello di token da un auto-insegnante; tuttavia, questi vantaggi non si applicano al ragionamento matematico che richiede pensiero. I miglioramenti nell'accuratezza diminuiscono e possono persino diventare negativi. Gli autori suggeriscono che la supervisione a posteriori offre scelte di token superiori in output brevi, ma evidenzia principalmente la ridondanza in tracce estese. Quando OPSD viene testato indipendentemente su rollout corretti e errati, sembra funzionare più come uno strumento di compressione che come un metodo di correzione per sequenze di ragionamento lunghe.

Fatti principali

1. OPSD è un'alternativa a RLVR per i modelli di ragionamento.
2. OPSD utilizza l'assegnazione del credito a livello di token da un auto-insegnante.
3. OPSD promette maggiore accuratezza e risposte più brevi.
4. Nel ragionamento matematico con pensiero, i guadagni di accuratezza di OPSD si riducono o diventano negativi.
5. La supervisione a posteriori fornisce alternative migliori in output brevi.
6. In tracce lunghe, la supervisione a posteriori identifica più ridondanza che sostituzioni.
7. OPSD è stato testato separatamente su gruppi di rollout corretti e errati.
8. OPSD si comporta come un meccanismo di compressione in tracce di ragionamento lunghe.

OPSD comprime piuttosto che correggere in tracce di ragionamento lunghe

Fatti principali

Entità

Istituzioni

Fonti