Ottimizzazione della Politica MeanFlow a un Passo Basata su Score
L'Ottimizzazione della Politica MeanFlow a un Passo Basata su Score (SOM) rappresenta un approccio innovativo attore-critico nell'apprendimento per rinforzo. Questo algoritmo affronta le richieste computazionali associate alle politiche di diffusione e di flusso stabilendo una mappatura diretta a un passo dal rumore ai dati. Utilizzando la stima dello score e un'ODE di flusso di probabilità, SOM deriva il campo di velocità target direttamente dalla funzione Q, eliminando così la necessità di campioni dalla distribuzione target. Nel campo dell'apprendimento per rinforzo online, SOM dimostra prestazioni leader nei compiti di locomozione, ottenendo ciò con un solo passo di generazione.
Fatti principali
- SOM è un algoritmo attore-critico per l'apprendimento per rinforzo.
- Utilizza una mappatura a passo singolo dal rumore ai dati.
- Il campo di velocità target è costruito dalla funzione Q tramite stima dello score e un'ODE di flusso di probabilità.
- SOM elimina la necessità di campioni dalla distribuzione target.
- Raggiunge prestazioni all'avanguardia nei compiti di locomozione nell'RL online.
- SOM richiede un solo passo di generazione.
- Il metodo si basa su MeanFlow, che apprende un campo di velocità medio.
- L'articolo è pubblicato su arXiv con ID 2605.23365.
Entità
Istituzioni
- arXiv