OPSD comprime piuttosto che correggere in tracce di ragionamento lunghe
Un recente articolo di ricerca pubblicato su arXiv (2605.06188) esamina l'On-Policy Self-Distillation (OPSD) come sostituto del Reinforcement Learning with Verifiable Rewards (RLVR) nei modelli di ragionamento. OPSD migliora l'accuratezza e minimizza la lunghezza delle risposte in output brevi attraverso l'assegnazione del credito a livello di token da un auto-insegnante; tuttavia, questi vantaggi non si applicano al ragionamento matematico che richiede pensiero. I miglioramenti nell'accuratezza diminuiscono e possono persino diventare negativi. Gli autori suggeriscono che la supervisione a posteriori offre scelte di token superiori in output brevi, ma evidenzia principalmente la ridondanza in tracce estese. Quando OPSD viene testato indipendentemente su rollout corretti e errati, sembra funzionare più come uno strumento di compressione che come un metodo di correzione per sequenze di ragionamento lunghe.
Fatti principali
- 1. OPSD è un'alternativa a RLVR per i modelli di ragionamento.
- 2. OPSD utilizza l'assegnazione del credito a livello di token da un auto-insegnante.
- 3. OPSD promette maggiore accuratezza e risposte più brevi.
- 4. Nel ragionamento matematico con pensiero, i guadagni di accuratezza di OPSD si riducono o diventano negativi.
- 5. La supervisione a posteriori fornisce alternative migliori in output brevi.
- 6. In tracce lunghe, la supervisione a posteriori identifica più ridondanza che sostituzioni.
- 7. OPSD è stato testato separatamente su gruppi di rollout corretti e errati.
- 8. OPSD si comporta come un meccanismo di compressione in tracce di ragionamento lunghe.
Entità
Istituzioni
- arXiv