Campionamento SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching

ai-technology · 2026-05-25

Un recente studio pubblicato su arXiv introduce "Precise", un metodo innovativo progettato per migliorare i modelli flow-matching tramite apprendimento per rinforzo post-addestramento. L'approccio sostituisce la tradizionale equazione differenziale ordinaria deterministica nel tempo inverso con un'equazione differenziale stocastica, consentendo lo sviluppo di una politica stocastica per l'apprendimento per rinforzo online. I ricercatori si concentrano su due aspetti chiave: ottimizzare l'esplorazione stocastica e discretizzare efficientemente la SDE con meno passaggi. Valutano l'equilibrio tra esplorazione e stabilità, ottenendo un nuovo programma SDE che migliora significativamente l'allineamento con i prompt e la qualità percettiva nei modelli generativi di diffusione e flow-matching.

Fatti principali

Articolo arXiv 2605.23522
Titolo: Precise: Campionamento Stocastico SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching
Sostituisce l'ODE deterministica con SDE per una politica stocastica
Due componenti: esplorazione stocastica e discretizzazione fedele
Analizza esplorazione vs. stabilità nella denoising
Deriva un programma SDE che bilancia esplorazione e stabilità
Mira a migliorare l'allineamento con i prompt e la qualità percettiva
Applica RL online a generatori flow-matching

Campionamento SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching

Fatti principali

Entità

Istituzioni

Fonti