L'algoritmo ANO migliora l'ottimizzazione robusta delle politiche nel Deep RL
I ricercatori introducono l'Anchored Neighborhood Optimization (ANO), un nuovo algoritmo che affronta il dilemma fondamentale della Proximal Policy Optimization (PPO), dove il clipping rigido scarta le informazioni del gradiente provenienti dagli outlier, causando inefficienza campionaria. Rimuovere il clipping, come in SPO, porta a gradienti illimitati e instabilità. ANO deriva da un Unified Trust Region Framework e introduce il Redescending Influence Principle, che sopprime dinamicamente gli outlier invece di penalità monotone o soglie rigide. Teoricamente, ANO dimostra stabilità nell'ottimizzazione stocastica ad alta varianza. L'articolo è disponibile su arXiv con ID 2605.02320.
Fatti principali
- ANO sta per Anchored Neighborhood Optimization.
- Il clipping rigido di PPO causa inefficienza campionaria scartando le informazioni del gradiente dagli outlier.
- SPO rimuove il clipping ma porta a gradienti illimitati e instabilità.
- Un Unified Trust Region Framework generalizza gli obiettivi esistenti.
- Il Redescending Influence Principle passa da penalità monotone e soglie rigide alla soppressione dinamica degli outlier.
- ANO è dimostrato essere necessario per la stabilità nell'ottimizzazione stocastica ad alta varianza.
- L'articolo è pubblicato su arXiv con ID 2605.02320.
- La ricerca affronta un dilemma fondamentale nell'apprendimento per rinforzo profondo.
Entità
Istituzioni
- arXiv