ARTFEED — Contemporary Art Intelligence

Campionamento SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching

ai-technology · 2026-05-25

Un recente studio pubblicato su arXiv introduce "Precise", un metodo innovativo progettato per migliorare i modelli flow-matching tramite apprendimento per rinforzo post-addestramento. L'approccio sostituisce la tradizionale equazione differenziale ordinaria deterministica nel tempo inverso con un'equazione differenziale stocastica, consentendo lo sviluppo di una politica stocastica per l'apprendimento per rinforzo online. I ricercatori si concentrano su due aspetti chiave: ottimizzare l'esplorazione stocastica e discretizzare efficientemente la SDE con meno passaggi. Valutano l'equilibrio tra esplorazione e stabilità, ottenendo un nuovo programma SDE che migliora significativamente l'allineamento con i prompt e la qualità percettiva nei modelli generativi di diffusione e flow-matching.

Fatti principali

  • Articolo arXiv 2605.23522
  • Titolo: Precise: Campionamento Stocastico SDE-Consistente per il Post-Addestramento RL di Modelli Flow-Matching
  • Sostituisce l'ODE deterministica con SDE per una politica stocastica
  • Due componenti: esplorazione stocastica e discretizzazione fedele
  • Analizza esplorazione vs. stabilità nella denoising
  • Deriva un programma SDE che bilancia esplorazione e stabilità
  • Mira a migliorare l'allineamento con i prompt e la qualità percettiva
  • Applica RL online a generatori flow-matching

Entità

Istituzioni

  • arXiv

Fonti