ARTFEED — Contemporary Art Intelligence

Soft DPG con Smoothing Gaussiano per il Controllo Continuo

other · 2026-05-09

Un nuovo algoritmo di apprendimento per rinforzo, Soft Deep Deterministic Policy Gradient (Soft DDPG), affronta la limitazione del DPG standard che richiede critici differenziabili. Il DPG standard fallisce con ricompense sparse o discrete, causando gradienti mal definiti. Soft DDPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano per definire una nuova funzione azione-valore, eliminando la dipendenza dai gradienti dell'azione del critico. Ciò garantisce gradienti ben definiti anche per funzioni Q non lisce. Il framework è dettagliato in arXiv:2605.06228.

Fatti principali

  • 1. Il DPG standard richiede critici differenziabili per gli aggiornamenti della politica.
  • 2. Questa ipotesi viene violata con ricompense sparse o discrete.
  • 3. Soft-DPG utilizza un'equazione di Bellman smussata tramite smoothing gaussiano.
  • 4. Definisce una nuova funzione azione-valore.
  • 5. Soft DDPG elimina la dipendenza esplicita dai gradienti dell'azione del critico.
  • 6. I gradienti rimangono ben definiti per funzioni Q non lisce.
  • 7. L'algoritmo è chiamato soft deep deterministic policy gradient (Soft DDPG).
  • 8. L'articolo è disponibile su arXiv con ID 2605.06228.

Entità

Istituzioni

  • arXiv

Fonti