La dinamica latente con penalità del gradiente migliora l'efficienza del campionamento di DreamerV3

ai-technology · 2026-05-25

Una nuova tecnica chiamata GPLD (Gradient-Penalized Latent Dynamics) migliora il framework di apprendimento per rinforzo DreamerV3 garantendo una regolarità locale nelle dinamiche di transizione apprese. Questo metodo introduce una penalità Jacobiana per righe sulla distribuzione latente a posteriori, simile a una versione a latente continuo dello smoothing a differenze finite presente nei MDP a stati discreti incorporati. La stima di GPLD viene effettuata in modo efficiente tramite sonde stocastiche di tipo Hutchinson. I risultati di test empirici su compiti propriocettivi di DeepMind Control indicano una maggiore efficienza complessiva del campionamento, con progressi notevoli particolarmente evidenti in scenari di locomozione più complessi, come compiti quadrupedi impegnativi.

Fatti principali

GPLD è un regolarizzatore delle dinamiche latenti con penalità del gradiente per DreamerV3.
Applica una penalità Jacobiana per righe sulla distribuzione latente a posteriori.
La penalità incoraggia l'apprendimento di transizioni localmente regolari.
Viene stimata utilizzando sonde stocastiche di tipo Hutchinson.
GPLD migliora l'efficienza aggregata del campionamento sui compiti di DeepMind Control.
Si osservano forti miglioramenti in ambienti di locomozione ad alta complessità.
Il metodo è testato su compiti quadrupedi.
L'articolo è disponibile su arXiv con ID 2605.23089.

La dinamica latente con penalità del gradiente migliora l'efficienza del campionamento di DreamerV3

Fatti principali

Entità

Istituzioni

Fonti