Il framework di regolarizzazione KL migliora la pianificazione MPPI nell'MBRL

other · 2026-05-23

È emerso un nuovo approccio per l'apprendimento per rinforzo basato su modello (MBRL) che affronta le sfide dell'esplorazione in compiti complessi di controllo continuo. Innovazioni recenti hanno iniziato a utilizzare politiche apprese come distribuzioni di proposta nella pianificazione Model-Predictive Path Integral (MPPI). In precedenza, i metodi aggiornavano la politica di campionamento autonomamente, concentrandosi sull'ottimizzazione di una funzione valore appresa utilizzando il gradiente politico deterministico e la regolarizzazione dell'entropia. Tuttavia, allineare la politica di campionamento più strettamente al pianificatore può migliorare sia l'accuratezza della stima del valore che i risultati complessivi a lungo termine. Nuovi approcci mirano a ridurre la divergenza KL tra la politica di campionamento e la distribuzione del pianificatore o includere una regolarizzazione guidata dal pianificatore. Questo studio integra queste strategie MPPI in un framework di regolarizzazione KL con priori adattivi.

Fatti principali

1. Il framework è mirato all'apprendimento per rinforzo basato su modello (MBRL).
2. Si concentra su compiti di controllo continuo ad alta dimensionalità.
3. Le politiche apprese sono utilizzate come distribuzioni di proposta per la pianificazione MPPI.
4. I metodi iniziali aggiornavano la politica di campionamento indipendentemente dal pianificatore.
5. Allineare la politica di campionamento con il pianificatore migliora la stima del valore.
6. I metodi recenti minimizzano la divergenza KL rispetto alla distribuzione del pianificatore.
7. La regolarizzazione guidata dal pianificatore è introdotta negli aggiornamenti della politica.
8. Questo lavoro unifica gli approcci basati su MPPI con priori adattivi.

Il framework di regolarizzazione KL migliora la pianificazione MPPI nell'MBRL

Fatti principali

Entità

Istituzioni

Fonti