Dream-MPC: Controllo Predittivo del Modello Basato su Gradiente con Immaginazione Latente

other · 2026-05-07

Un nuovo approccio di apprendimento per rinforzo, Dream-MPC, combina l'ottimizzazione basata su gradiente con il controllo predittivo del modello. Il metodo genera traiettorie candidate da una politica a priori e le perfeziona tramite ascesa del gradiente utilizzando un modello del mondo appreso, regolarizzazione dell'incertezza e ammortizzazione. Ciò affronta il costo computazionale dei metodi basati su popolazione senza gradiente in compiti di controllo ad alta dimensionalità, che in precedenza hanno superato le alternative basate su gradiente. Il lavoro è pubblicato su arXiv con identificativo 2605.04568.

Fatti principali

Dream-MPC è un nuovo approccio che combina l'ottimizzazione basata su gradiente con MPC.
Genera poche traiettorie candidate da una politica dispiegata.
Ogni traiettoria è ottimizzata tramite ascesa del gradiente utilizzando un modello del mondo appreso.
Il metodo include regolarizzazione dell'incertezza e ammortizzazione.
Mira a ridurre il costo computazionale rispetto ai metodi basati su popolazione senza gradiente.
I metodi senza gradiente hanno superato empiricamente quelli basati su gradiente in lavori precedenti.
L'articolo è disponibile su arXiv con ID 2605.04568.
L'approccio è mirato a compiti di controllo ad alta dimensionalità.

Dream-MPC: Controllo Predittivo del Modello Basato su Gradiente con Immaginazione Latente

Fatti principali

Entità

Istituzioni

Fonti