Flow-Direct: Guida Non Parametrica per Modelli di Flusso
Flow-Direct è un nuovo framework che non richiede addestramento per guidare modelli di diffusione e flusso pre-addestrati. Utilizza un campo di guida continuo per migliorare obiettivi specifici dell'applicazione attraverso funzioni di ricompensa esterne a scatola nera. A differenza degli approcci tradizionali che trascurano il feedback della ricompensa dopo una singola applicazione, Flow-Direct raccoglie tutti i campioni valutati dalle ricompense per creare uno stimatore non parametrico del campo di guida. Questo stimatore si basa teoricamente sul rapporto di densità logaritmica della distribuzione di base e delle distribuzioni target pesate dalla ricompensa. Sfruttando il feedback passato, questo metodo aumenta significativamente l'efficienza del feedback nella guida della generazione. Ulteriori dettagli sono disponibili in un articolo pubblicato su arXiv (2605.16348).
Fatti principali
- Flow-Direct è un framework di guida senza addestramento.
- Utilizza un campo di guida persistente per modelli di flusso.
- Il campo di guida deriva dal rapporto di densità logaritmica.
- Impiega uno stimatore non parametrico da campioni accumulati.
- I metodi esistenti scartano il feedback della ricompensa dopo un singolo uso.
- Flow-Direct riutilizza il feedback storico della ricompensa.
- L'articolo è su arXiv con ID 2605.16348.
- Si rivolge a modelli di diffusione e flusso pre-addestrati.
Entità
Istituzioni
- arXiv