FullFlow: Aggiornamento dei modelli Text-to-Image per la generazione bidirezionale

ai-technology · 2026-05-22

FullFlow rappresenta un approccio efficiente che potenzia un modello di flusso rettificato pre-addestrato per la generazione text-to-image, trasformandolo in un generatore bidirezionale visione-linguaggio. Questo metodo addestra esclusivamente adattatori LoRA insieme a testine di testo leggere, garantendo che le immagini rimangano in un flusso continuo mentre incorpora un processo discreto per l'inserimento del testo. Utilizzando passi temporali distinti per immagini e testo, facilita varie funzionalità, tra cui text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo, tutte supportate da un unico backbone.

Fatti principali

1. FullFlow aggiorna i modelli text-to-image per la generazione bidirezionale visione-linguaggio.
2. Utilizza adattatori LoRA e testine di testo leggere.
3. Le immagini rimangono in un flusso continuo; il testo viene aggiunto tramite inserimento discreto.
4. Passi temporali separati per immagine e testo consentono molteplici modalità di generazione.
5. Il metodo è efficiente in termini di parametri, evitando un riaddestramento su larga scala.
6. Funziona con modelli text-to-image a flusso rettificato.
7. L'approccio preserva il forte prior dell'immagine del modello originale.
8. FullFlow consente text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21