L'algoritmo PDR-ANPG raggiunge la convergenza all'ultima iterazione nei CMDP vincolati
Un nuovo algoritmo chiamato Primal-Dual based Regularized Accelerated Natural Policy Gradient (PDR-ANPG) è stato introdotto per l'apprendimento dei Processi Decisionali di Markov Vincolati (CMDP) utilizzando politiche generali parametrizzate. Questo algoritmo impiega regolarizzatori di entropia e quadratici per garantire la convergenza all'ultima iterazione. Per classi di politiche parametrizzate che presentano un errore di approssimazione di compatibilità trasferito, ε_bias, PDR-ANPG raggiunge un gap di ottimalità ε e una violazione dei vincoli ε con una complessità campionaria di Õ(ε⁻² min{ε⁻², ε_bias⁻¹/³}). Negli scenari in cui la classe è incompleta (ε_bias > 0), la complessità si semplifica a Õ(ε⁻²) per ε < (ε_bias)^(1/6). Per politiche complete con ε_bias = 0, l'algoritmo garantisce un gap di ottimalità ε e una violazione dei vincoli ε all'ultima iterazione con complessità campionaria Õ(ε⁻² min{ε⁻², 1}). Questo sviluppo migliora l'apprendimento per rinforzo in contesti critici per la sicurezza, dove i vincoli devono essere rispettati durante tutto il processo di apprendimento.
Fatti principali
- L'algoritmo PDR-ANPG utilizza regolarizzatori di entropia e quadratici.
- Raggiunge la convergenza all'ultima iterazione per politiche generali parametrizzate nei CMDP.
- Complessità campionaria: Õ(ε⁻² min{ε⁻², ε_bias⁻¹/³}) per il caso generale.
- Per classi di politiche incomplete (ε_bias > 0), la complessità si riduce a Õ(ε⁻²) quando ε < (ε_bias)^(1/6).
- Per politiche complete (ε_bias = 0), la complessità è Õ(ε⁻² min{ε⁻², 1}).
- L'algoritmo garantisce che sia il gap di ottimalità che la violazione dei vincoli siano entro ε.
- L'errore di approssimazione di compatibilità trasferito ε_bias misura l'incompletezza della classe di politiche.
- L'articolo proviene da arXiv:2408.11513v2.
Entità
Istituzioni
- arXiv