One-Way Policy Optimization migliora il ragionamento degli LLM con ricompense verificabili

ai-technology · 2026-05-23

Un nuovo metodo chiamato One-Way Policy Optimization (OWPO) affronta le inefficienze dell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Modelli Linguistici di Grandi Dimensioni (LLM). RLVR utilizza ricompense binarie da verificatore per scalare le capacità di ragionamento, ma soffre di bassa efficienza e instabilità di ottimizzazione a causa di ricompense sparse. I metodi esistenti impongono vincoli a livello di token rispetto a una policy di riferimento, penalizzando indiscriminatamente le deviazioni e potendo sopprimere i guadagni invertendo la direzione determinata dal verificatore quando la policy cerca di superare il riferimento. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento: il verificatore detta la direzione, mentre la policy di riferimento regola solo l'entità. Applica un ripesaggio asimmetrico, eseguendo un Allineamento Accelerato per le deviazioni inferiori. L'articolo è pubblicato su arXiv con ID 2605.22156.

Fatti principali

1. OWPO è un nuovo metodo per RLVR negli LLM.
2. RLVR utilizza ricompense binarie da verificatore per scalare il ragionamento.
3. I vincoli a livello di token esistenti possono invertire la direzione determinata dal verificatore.
4. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento.
5. In OWPO, il verificatore detta la direzione di aggiornamento.
6. In OWPO, la policy di riferimento regola l'entità dell'aggiornamento.
7. OWPO applica un ripesaggio asimmetrico.
8. L'articolo è su arXiv: 2605.22156.

One-Way Policy Optimization migliora il ragionamento degli LLM con ricompense verificabili

Fatti principali

Entità

Istituzioni

Fonti