Soft DPG con Smoothing Gaussiano per il Controllo Continuo

other · 2026-05-09

Un nuovo algoritmo di apprendimento per rinforzo, Soft Deep Deterministic Policy Gradient (Soft DDPG), affronta la limitazione del DPG standard che richiede critici differenziabili. Il DPG standard fallisce con ricompense sparse o discrete, causando gradienti mal definiti. Soft DDPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano per definire una nuova funzione azione-valore, eliminando la dipendenza dai gradienti dell'azione del critico. Ciò garantisce gradienti ben definiti anche per funzioni Q non lisce. Il framework è dettagliato in arXiv:2605.06228.

Fatti principali

1. Il DPG standard richiede critici differenziabili per gli aggiornamenti della politica.
2. Questa ipotesi viene violata con ricompense sparse o discrete.
3. Soft-DPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano.
4. Definisce una nuova funzione azione-valore.
5. Soft DDPG elimina la dipendenza esplicita dai gradienti dell'azione del critico.
6. I gradienti rimangono ben definiti per funzioni Q non lisce.
7. L'algoritmo è chiamato soft deep deterministic policy gradient (Soft DDPG).
8. L'articolo è disponibile su arXiv con ID 2605.06228.

Soft DPG con Smoothing Gaussiano per il Controllo Continuo

Fatti principali

Entità

Istituzioni

Fonti