Soft DPG con Smoothing Gaussiano per il Controllo Continuo
Un nuovo algoritmo di apprendimento per rinforzo, Soft Deep Deterministic Policy Gradient (Soft DDPG), affronta la limitazione del DPG standard che richiede critici differenziabili. Il DPG standard fallisce con ricompense sparse o discrete, causando gradienti mal definiti. Soft DDPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano per definire una nuova funzione azione-valore, eliminando la dipendenza dai gradienti dell'azione del critico. Ciò garantisce gradienti ben definiti anche per funzioni Q non lisce. Il framework è dettagliato in arXiv:2605.06228.
Fatti principali
- 1. Il DPG standard richiede critici differenziabili per gli aggiornamenti della politica.
- 2. Questa ipotesi viene violata con ricompense sparse o discrete.
- 3. Soft-DPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano.
- 4. Definisce una nuova funzione azione-valore.
- 5. Soft DDPG elimina la dipendenza esplicita dai gradienti dell'azione del critico.
- 6. I gradienti rimangono ben definiti per funzioni Q non lisce.
- 7. L'algoritmo è chiamato soft deep deterministic policy gradient (Soft DDPG).
- 8. L'articolo è disponibile su arXiv con ID 2605.06228.
Entità
Istituzioni
- arXiv