DIDR: Un Framework RL Principiato per Generatori di Testo-Immagine a un Passo
Un nuovo framework chiamato Diff-Instruct with Diffused Reward (DIDR) è stato introdotto dai ricercatori per allineare generatori di testo-immagine a un passo senza richiedere dati. Basato sulla minimizzazione di Integral KL, DIDR diffonde la distribuzione di immagini pulite inclinate dalla ricompensa ottimale RLHF attraverso vari livelli di rumore lungo il percorso di diffusione. Questa innovazione affronta il problema del disallineamento tra l'ottimizzazione della ricompensa terminale e le dinamiche generative osservato nei precedenti approcci di apprendimento per rinforzo, che spesso privilegiavano il miglioramento della ricompensa a scapito della qualità dell'immagine. I dettagli di questo framework sono disponibili nell'articolo arXiv numero 2605.24001.
Fatti principali
- DIDR è un framework di allineamento a livello di traiettoria senza dati per generatori di testo-immagine a un passo.
- Deriva dalla minimizzazione di Integral KL.
- DIDR propaga la distribuzione di immagini pulite inclinate dalla ricompensa ottimale RLHF attraverso tutti i livelli di rumore.
- Affronta il disallineamento tra l'ottimizzazione della ricompensa terminale e le dinamiche generative.
- I precedenti metodi RL per generatori a un passo combinavano l'ottimizzazione della ricompensa nello spazio delle immagini con il matching distribuzionale nello spazio rumoroso di diffusione.
- L'ottimizzazione nei metodi precedenti tendeva a sfruttare i gradi di libertà stocastici, migliorando la ricompensa a scapito della fedeltà dell'immagine.
- L'articolo è disponibile su arXiv con ID 2605.24001.
- Il framework mira a ottenere un RL principiato per generatori a un passo.
Entità
Istituzioni
- arXiv