NFPO: Correzione del Rapporto di Verosimiglianza a Più Passi per RLVR

other · 2026-05-22

Un nuovo algoritmo di apprendimento per rinforzo, N-Step Forward-Trace Policy Optimization (NFPO), migliora la capacità di ragionamento dei grandi modelli linguistici correggendo il bias strutturale negli obiettivi surrogati di PPO. Il metodo introduce una traccia forward a N passi che potenzia l'obiettivo PPO utilizzando rapporti di verosimiglianza cumulativi dei token successivi. NFPO integra questa traccia in un framework di policy gradient mascherato, fornendo un ponte continuo tra il surrogato PPO e il gradiente esatto della policy. Il lavoro è pubblicato su arXiv con identificatore 2605.20865.

Fatti principali

1. RLVR migliora il ragionamento nei grandi modelli linguistici.
2. Gli obiettivi surrogati di PPO sono approssimazioni locali.
3. L'approssimazione locale introduce bias strutturale.
4. I meccanismi di regione di fiducia controllano il bias.
5. NFPO utilizza una traccia forward a N passi.
6. La traccia forward utilizza rapporti di verosimiglianza cumulativi.
7. NFPO si integra in un policy gradient mascherato.
8. NFPO funge da ponte tra il surrogato PPO e il gradiente esatto.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21