R²VPO: Un Nuovo Metodo di Apprendimento per Rinforzo Senza Clipping

ai-technology · 2026-05-27

Un nuovo metodo di apprendimento per rinforzo chiamato Ratio-Variance Regularized Policy Optimization (R²VPO) elimina la necessità del clipping euristico negli algoritmi on-policy. L'RL on-policy standard utilizza il clipping per imporre regioni di fiducia, ma questo tronca gli aggiornamenti ad alto rendimento. R²VPO vincola la varianza del rapporto di policy come approssimazione locale basata su principi, agendo come un freno morbido distribuzionale che preserva i segnali di gradiente provenienti da scoperte innovative e consente il riutilizzo di dati off-policy obsoleti. Il metodo è implementato tramite un framework di ottimizzazione primale-duale. Le valutazioni su 7 scale di LLM (ragionamento veloce e lento) e 10 compiti di controllo robotico dimostrano la generalità.

Fatti principali

1. L'RL on-policy standard si basa sul clipping euristico per imporre regioni di fiducia.
2. Il clipping tronca indiscriminatamente aggiornamenti ad alto rendimento ma ad alta divergenza.
3. R²VPO vincola la varianza del rapporto di policy come approssimazione locale ai vincoli della regione di fiducia.
4. L'approccio agisce come un freno morbido distribuzionale.
5. Preserva i segnali di gradiente critici provenienti da scoperte innovative.
6. Consente il riutilizzo di dati off-policy obsoleti.
7. R²VPO utilizza un framework di ottimizzazione primale-duale.
8. Valutato su 7 scale di LLM e 10 compiti di controllo robotico.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27