ARTFEED — Contemporary Art Intelligence

Il framework di regolarizzazione KL migliora la pianificazione MPPI nell'MBRL

other · 2026-05-23

È emerso un nuovo approccio per l'apprendimento per rinforzo basato su modello (MBRL) che affronta le sfide dell'esplorazione in compiti complessi di controllo continuo. Innovazioni recenti hanno iniziato a utilizzare politiche apprese come distribuzioni di proposta nella pianificazione Model-Predictive Path Integral (MPPI). In precedenza, i metodi aggiornavano la politica di campionamento autonomamente, concentrandosi sull'ottimizzazione di una funzione valore appresa utilizzando il gradiente politico deterministico e la regolarizzazione dell'entropia. Tuttavia, allineare la politica di campionamento più strettamente al pianificatore può migliorare sia l'accuratezza della stima del valore che i risultati complessivi a lungo termine. Nuovi approcci mirano a ridurre la divergenza KL tra la politica di campionamento e la distribuzione del pianificatore o includere una regolarizzazione guidata dal pianificatore. Questo studio integra queste strategie MPPI in un framework di regolarizzazione KL con priori adattivi.

Fatti principali

  • 1. Il framework è mirato all'apprendimento per rinforzo basato su modello (MBRL).
  • 2. Si concentra su compiti di controllo continuo ad alta dimensionalità.
  • 3. Le politiche apprese sono utilizzate come distribuzioni di proposta per la pianificazione MPPI.
  • 4. I metodi iniziali aggiornavano la politica di campionamento indipendentemente dal pianificatore.
  • 5. Allineare la politica di campionamento con il pianificatore migliora la stima del valore.
  • 6. I metodi recenti minimizzano la divergenza KL rispetto alla distribuzione del pianificatore.
  • 7. La regolarizzazione guidata dal pianificatore è introdotta negli aggiornamenti della politica.
  • 8. Questo lavoro unifica gli approcci basati su MPPI con priori adattivi.

Entità

Istituzioni

  • arXiv

Fonti