R²VPO: Un Nuovo Metodo di Apprendimento per Rinforzo Senza Clipping
Un nuovo metodo di apprendimento per rinforzo chiamato Ratio-Variance Regularized Policy Optimization (R²VPO) elimina la necessità del clipping euristico negli algoritmi on-policy. L'RL on-policy standard utilizza il clipping per imporre regioni di fiducia, ma questo tronca gli aggiornamenti ad alto rendimento. R²VPO vincola la varianza del rapporto di policy come approssimazione locale basata su principi, agendo come un freno morbido distribuzionale che preserva i segnali di gradiente provenienti da scoperte innovative e consente il riutilizzo di dati off-policy obsoleti. Il metodo è implementato tramite un framework di ottimizzazione primale-duale. Le valutazioni su 7 scale di LLM (ragionamento veloce e lento) e 10 compiti di controllo robotico dimostrano la generalità.
Fatti principali
- 1. L'RL on-policy standard si basa sul clipping euristico per imporre regioni di fiducia.
- 2. Il clipping tronca indiscriminatamente aggiornamenti ad alto rendimento ma ad alta divergenza.
- 3. R²VPO vincola la varianza del rapporto di policy come approssimazione locale ai vincoli della regione di fiducia.
- 4. L'approccio agisce come un freno morbido distribuzionale.
- 5. Preserva i segnali di gradiente critici provenienti da scoperte innovative.
- 6. Consente il riutilizzo di dati off-policy obsoleti.
- 7. R²VPO utilizza un framework di ottimizzazione primale-duale.
- 8. Valutato su 7 scale di LLM e 10 compiti di controllo robotico.
Entità
—