FullFlow: Aggiornamento dei modelli Text-to-Image per la generazione bidirezionale
FullFlow rappresenta un approccio efficiente che potenzia un modello di flusso rettificato pre-addestrato per la generazione text-to-image, trasformandolo in un generatore bidirezionale visione-linguaggio. Questo metodo addestra esclusivamente adattatori LoRA insieme a testine di testo leggere, garantendo che le immagini rimangano in un flusso continuo mentre incorpora un processo discreto per l'inserimento del testo. Utilizzando passi temporali distinti per immagini e testo, facilita varie funzionalità, tra cui text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo, tutte supportate da un unico backbone.
Fatti principali
- 1. FullFlow aggiorna i modelli text-to-image per la generazione bidirezionale visione-linguaggio.
- 2. Utilizza adattatori LoRA e testine di testo leggere.
- 3. Le immagini rimangono in un flusso continuo; il testo viene aggiunto tramite inserimento discreto.
- 4. Passi temporali separati per immagine e testo consentono molteplici modalità di generazione.
- 5. Il metodo è efficiente in termini di parametri, evitando un riaddestramento su larga scala.
- 6. Funziona con modelli text-to-image a flusso rettificato.
- 7. L'approccio preserva il forte prior dell'immagine del modello originale.
- 8. FullFlow consente text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo.
Entità
—