Q-Flow: RL stabile con policy basate su flusso
Un nuovo framework di apprendimento per rinforzo chiamato Q-Flow sfrutta modelli basati su flusso per le policy decisionali. Affronta l'instabilità nell'ottimizzazione basata su gradiente propagando il valore terminale della traiettoria agli stati latenti intermedi attraverso dinamiche di flusso deterministiche. Ciò elimina la necessità di retropropagare attraverso risolutori numerici, consentendo un'ottimizzazione stabile della policy senza sacrificare la capacità espressiva. L'approccio risolve il compromesso tra stabilità dell'ottimizzazione e flessibilità rappresentativa nei metodi esistenti.
Fatti principali
- Q-Flow è un framework di apprendimento per rinforzo che utilizza modelli basati su flusso come policy.
- Propaga il valore terminale della traiettoria agli stati latenti intermedi tramite dinamiche di flusso.
- Il metodo evita la retropropagazione attraverso risolutori numerici.
- Consente un'ottimizzazione stabile della policy con gradienti di valore intermedi.
- Gli approcci esistenti limitano la capacità espressiva per garantire stabilità.
- Q-Flow colma il divario tra stabilità dell'ottimizzazione e flessibilità rappresentativa.
- L'articolo è pubblicato su arXiv con ID 2605.13435.
- L'approccio è di natura deterministica.
Entità
Istituzioni
- arXiv