Il framework di regolarizzazione KL migliora la pianificazione MPPI nell'MBRL
È emerso un nuovo approccio per l'apprendimento per rinforzo basato su modello (MBRL) che affronta le sfide dell'esplorazione in compiti complessi di controllo continuo. Innovazioni recenti hanno iniziato a utilizzare politiche apprese come distribuzioni di proposta nella pianificazione Model-Predictive Path Integral (MPPI). In precedenza, i metodi aggiornavano la politica di campionamento autonomamente, concentrandosi sull'ottimizzazione di una funzione valore appresa utilizzando il gradiente politico deterministico e la regolarizzazione dell'entropia. Tuttavia, allineare la politica di campionamento più strettamente al pianificatore può migliorare sia l'accuratezza della stima del valore che i risultati complessivi a lungo termine. Nuovi approcci mirano a ridurre la divergenza KL tra la politica di campionamento e la distribuzione del pianificatore o includere una regolarizzazione guidata dal pianificatore. Questo studio integra queste strategie MPPI in un framework di regolarizzazione KL con priori adattivi.
Fatti principali
- 1. Il framework è mirato all'apprendimento per rinforzo basato su modello (MBRL).
- 2. Si concentra su compiti di controllo continuo ad alta dimensionalità.
- 3. Le politiche apprese sono utilizzate come distribuzioni di proposta per la pianificazione MPPI.
- 4. I metodi iniziali aggiornavano la politica di campionamento indipendentemente dal pianificatore.
- 5. Allineare la politica di campionamento con il pianificatore migliora la stima del valore.
- 6. I metodi recenti minimizzano la divergenza KL rispetto alla distribuzione del pianificatore.
- 7. La regolarizzazione guidata dal pianificatore è introdotta negli aggiornamenti della politica.
- 8. Questo lavoro unifica gli approcci basati su MPPI con priori adattivi.
Entità
Istituzioni
- arXiv