Campionamento SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching
Un recente studio pubblicato su arXiv introduce "Precise", un metodo innovativo progettato per migliorare i modelli flow-matching tramite apprendimento per rinforzo post-addestramento. L'approccio sostituisce la tradizionale equazione differenziale ordinaria deterministica nel tempo inverso con un'equazione differenziale stocastica, consentendo lo sviluppo di una politica stocastica per l'apprendimento per rinforzo online. I ricercatori si concentrano su due aspetti chiave: ottimizzare l'esplorazione stocastica e discretizzare efficientemente la SDE con meno passaggi. Valutano l'equilibrio tra esplorazione e stabilità, ottenendo un nuovo programma SDE che migliora significativamente l'allineamento con i prompt e la qualità percettiva nei modelli generativi di diffusione e flow-matching.
Fatti principali
- Articolo arXiv 2605.23522
- Titolo: Precise: Campionamento Stocastico SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching
- Sostituisce l'ODE deterministica con SDE per una politica stocastica
- Due componenti: esplorazione stocastica e discretizzazione fedele
- Analizza esplorazione vs. stabilità nella denoising
- Deriva un programma SDE che bilancia esplorazione e stabilità
- Mira a migliorare l'allineamento con i prompt e la qualità percettiva
- Applica RL online a generatori flow-matching
Entità
Istituzioni
- arXiv