VARestorer: Distillazione in un unico passo per il super-risoluzione di immagini reali
Un team di ricercatori ha introdotto VARestorer, un framework di distillazione progettato per convertire un modello VAR pre-addestrato text-to-image in un modello semplificato a un passo per il super-risoluzione di immagini reali (Real-ISR). Questo metodo innovativo affronta le difficoltà di adattare i modelli autoregressivi visivi (VAR) per ISR, inclusi i vincoli dell'attenzione causale e l'accumulo di errori durante le previsioni iterative. Utilizzando il matching delle distribuzioni, VARestorer elimina la necessità di raffinamento iterativo, riducendo così la propagazione degli errori e il tempo di inferenza. Inoltre, impiega il condizionamento piramidale delle immagini con attenzione cross-scala per migliorare le prestazioni, ottenendo risultati all'avanguardia su dataset di riferimento.
Fatti principali
- VARestorer è un framework di distillazione per il super-risoluzione di immagini reali in un unico passo.
- Trasforma un modello VAR text-to-image pre-addestrato in un modello ISR.
- Il metodo utilizza il matching delle distribuzioni per evitare il raffinamento iterativo.
- Affronta le limitazioni dell'attenzione causale e l'accumulo di errori in VAR.
- Viene introdotto il condizionamento piramidale delle immagini con attenzione cross-scala.
- L'approccio riduce il tempo di inferenza e la propagazione degli errori.
- Ottiene risultati all'avanguardia su dataset di riferimento.
- L'articolo è disponibile su arXiv con ID 2604.21450.
Entità
Istituzioni
- arXiv