ARTFEED — Contemporary Art Intelligence

Politiche Stocastiche MeanFlow: Controllo Generativo in un Solo Passo nel RL

other · 2026-05-22

L'articolo introduce le Politiche Stocastiche MeanFlow (SMFP), una classe di politiche generative in un solo passo per l'apprendimento per rinforzo che combina la regolarizzazione entropica con i vincoli di discesa dello specchio. SMFP supera le limitazioni delle politiche gaussiane nella gestione di distribuzioni di azioni multimodali e evita il campionamento iterativo richiesto da altre politiche generative. L'approccio unifica il miglioramento soft della politica e la discesa dello specchio minimizzando diverse divergenze KL, consentendo l'esplorazione e stabilizzando gli aggiornamenti della politica. Il metodo è presentato come una soluzione per il RL online off-policy, offrendo stime di entropia trattabili e potere espressivo senza campionamento iterativo.

Fatti principali

  • SMFP è una classe di politiche generative in un solo passo per l'apprendimento per rinforzo.
  • Combina la regolarizzazione entropica con i vincoli di discesa dello specchio.
  • Le politiche gaussiane hanno difficoltà con distribuzioni di azioni multimodali.
  • SMFP evita il campionamento iterativo richiesto da altre politiche generative.
  • Il metodo unifica il miglioramento soft della politica e la discesa dello specchio.
  • Supporta l'esplorazione mentre stabilizza il miglioramento della politica.
  • L'articolo è pubblicato su arXiv con ID 2605.21282v2.
  • L'approccio offre stime di entropia trattabili.

Entità

Fonti