Politiche Stocastiche MeanFlow: Controllo Generativo in un Solo Passo nel RL
L'articolo introduce le Politiche Stocastiche MeanFlow (SMFP), una classe di politiche generative in un solo passo per l'apprendimento per rinforzo che combina la regolarizzazione entropica con i vincoli di discesa dello specchio. SMFP supera le limitazioni delle politiche gaussiane nella gestione di distribuzioni di azioni multimodali e evita il campionamento iterativo richiesto da altre politiche generative. L'approccio unifica il miglioramento soft della politica e la discesa dello specchio minimizzando diverse divergenze KL, consentendo l'esplorazione e stabilizzando gli aggiornamenti della politica. Il metodo è presentato come una soluzione per il RL online off-policy, offrendo stime di entropia trattabili e potere espressivo senza campionamento iterativo.
Fatti principali
- SMFP è una classe di politiche generative in un solo passo per l'apprendimento per rinforzo.
- Combina la regolarizzazione entropica con i vincoli di discesa dello specchio.
- Le politiche gaussiane hanno difficoltà con distribuzioni di azioni multimodali.
- SMFP evita il campionamento iterativo richiesto da altre politiche generative.
- Il metodo unifica il miglioramento soft della politica e la discesa dello specchio.
- Supporta l'esplorazione mentre stabilizza il miglioramento della politica.
- L'articolo è pubblicato su arXiv con ID 2605.21282v2.
- L'approccio offre stime di entropia trattabili.
Entità
—