One-Way Policy Optimization migliora il ragionamento degli LLM con ricompense verificabili
Un nuovo metodo chiamato One-Way Policy Optimization (OWPO) affronta le inefficienze dell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Modelli Linguistici di Grandi Dimensioni (LLM). RLVR utilizza ricompense binarie da verificatore per scalare le capacità di ragionamento, ma soffre di bassa efficienza e instabilità di ottimizzazione a causa di ricompense sparse. I metodi esistenti impongono vincoli a livello di token rispetto a una policy di riferimento, penalizzando indiscriminatamente le deviazioni e potendo sopprimere i guadagni invertendo la direzione determinata dal verificatore quando la policy cerca di superare il riferimento. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento: il verificatore detta la direzione, mentre la policy di riferimento regola solo l'entità. Applica un ripesaggio asimmetrico, eseguendo un Allineamento Accelerato per le deviazioni inferiori. L'articolo è pubblicato su arXiv con ID 2605.22156.
Fatti principali
- 1. OWPO è un nuovo metodo per RLVR negli LLM.
- 2. RLVR utilizza ricompense binarie da verificatore per scalare il ragionamento.
- 3. I vincoli a livello di token esistenti possono invertire la direzione determinata dal verificatore.
- 4. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento.
- 5. In OWPO, il verificatore detta la direzione di aggiornamento.
- 6. In OWPO, la policy di riferimento regola l'entità dell'aggiornamento.
- 7. OWPO applica un ripesaggio asimmetrico.
- 8. L'articolo è su arXiv: 2605.22156.
Entità
Istituzioni
- arXiv