ARTFEED — Contemporary Art Intelligence

FullFlow: Aggiornamento dei modelli Text-to-Image per la generazione bidirezionale

ai-technology · 2026-05-22

FullFlow rappresenta un approccio efficiente che potenzia un modello di flusso rettificato pre-addestrato per la generazione text-to-image, trasformandolo in un generatore bidirezionale visione-linguaggio. Questo metodo addestra esclusivamente adattatori LoRA insieme a testine di testo leggere, garantendo che le immagini rimangano in un flusso continuo mentre incorpora un processo discreto per l'inserimento del testo. Utilizzando passi temporali distinti per immagini e testo, facilita varie funzionalità, tra cui text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo, tutte supportate da un unico backbone.

Fatti principali

  • 1. FullFlow aggiorna i modelli text-to-image per la generazione bidirezionale visione-linguaggio.
  • 2. Utilizza adattatori LoRA e testine di testo leggere.
  • 3. Le immagini rimangono in un flusso continuo; il testo viene aggiunto tramite inserimento discreto.
  • 4. Passi temporali separati per immagine e testo consentono molteplici modalità di generazione.
  • 5. Il metodo è efficiente in termini di parametri, evitando un riaddestramento su larga scala.
  • 6. Funziona con modelli text-to-image a flusso rettificato.
  • 7. L'approccio preserva il forte prior dell'immagine del modello originale.
  • 8. FullFlow consente text-to-image, image-to-text, campionamento congiunto e previsione parziale del testo.

Entità

Fonti