ARTFEED — Contemporary Art Intelligence

One-Way Policy Optimization migliora il ragionamento degli LLM con ricompense verificabili

ai-technology · 2026-05-23

Un nuovo metodo chiamato One-Way Policy Optimization (OWPO) affronta le inefficienze dell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per i Modelli Linguistici di Grandi Dimensioni (LLM). RLVR utilizza ricompense binarie da verificatore per scalare le capacità di ragionamento, ma soffre di bassa efficienza e instabilità di ottimizzazione a causa di ricompense sparse. I metodi esistenti impongono vincoli a livello di token rispetto a una policy di riferimento, penalizzando indiscriminatamente le deviazioni e potendo sopprimere i guadagni invertendo la direzione determinata dal verificatore quando la policy cerca di superare il riferimento. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento: il verificatore detta la direzione, mentre la policy di riferimento regola solo l'entità. Applica un ripesaggio asimmetrico, eseguendo un Allineamento Accelerato per le deviazioni inferiori. L'articolo è pubblicato su arXiv con ID 2605.22156.

Fatti principali

  • 1. OWPO è un nuovo metodo per RLVR negli LLM.
  • 2. RLVR utilizza ricompense binarie da verificatore per scalare il ragionamento.
  • 3. I vincoli a livello di token esistenti possono invertire la direzione determinata dal verificatore.
  • 4. OWPO disaccoppia la direzione di ottimizzazione dall'entità dell'aggiornamento.
  • 5. In OWPO, il verificatore detta la direzione di aggiornamento.
  • 6. In OWPO, la policy di riferimento regola l'entità dell'aggiornamento.
  • 7. OWPO applica un ripesaggio asimmetrico.
  • 8. L'articolo è su arXiv: 2605.22156.

Entità

Istituzioni

  • arXiv

Fonti