Metodo Senza Addestramento Corregge la Deriva nell'Editing Multi-Turn di Immagini con Transformers Diffusivi
Un fattore significativo che contribuisce al declino della qualità durante l'editing multi-turn di immagini con transformers diffusivi (DiT) è stato scoperto dai ricercatori. La loro analisi delle frequenze nello spazio latente ha rivelato che i DiT causano una deriva predominante a bassa frequenza che si accumula attraverso iterazioni di editing multiple, portando a un disallineamento semantico. Al contrario, il componente VAE aggiunge solo un bias di ricostruzione coerente. Per affrontare questo problema, introducono VAE-LFA (Low Frequency Alignment), un metodo che non richiede addestramento e può essere facilmente integrato. Questo approccio allinea le statistiche a bassa frequenza nello spazio latente del VAE utilizzando filtraggio passa-basso e una media mobile esponenziale dei round precedenti. Ulteriori dettagli sono disponibili su arXiv:2605.08250.
Fatti principali
- I transformers diffusivi (DiT) consentono l'editing di immagini a turno singolo ma soffrono di una deriva semantica progressiva nell'editing multi-turn.
- La deriva è causata da componenti dominanti a bassa frequenza introdotti dal DiT nello spazio latente del VAE.
- Il VAE contribuisce con un bias di ricostruzione comparativamente stabile.
- VAE-LFA è un metodo senza addestramento, plug-and-play per l'allineamento a bassa frequenza.
- Scompone le discrepanze latenti tramite filtraggio passa-basso e allinea le statistiche a bassa frequenza a una media mobile esponenziale.
- La ricerca è pubblicata su arXiv con ID 2605.08250.
- Il metodo opera nello spazio latente del VAE.
- Lo studio utilizza una prospettiva di frequenza per analizzare il processo di editing.
Entità
Istituzioni
- arXiv