RaPD: Diffusione di Pixel Indipendente dalla Risoluzione tramite Rappresentazioni Implicite Arricchite Semanticamente
RaPD (Diffusione di Pixel Indipendente dalla Risoluzione) introduce un modello generativo innovativo che esegue la diffusione in uno spazio latente continuo di Neural Image Field (NIF), consentendo la sintesi di immagini indipendente dalla risoluzione. A differenza delle tecniche precedenti che applicano la continuità solo durante la fase di decodifica, RaPD la incorpora nell'intero framework generativo. Utilizza la Guida alla Rappresentazione Semantica per l'apprendimento latente consapevole della generazione e un Renderer di Attenzione Interrogato da Coordinate per un rendering adattivo a diverse scale. Regolando le coordinate di interrogazione, un singolo latente denoised può essere renderizzato a qualsiasi risoluzione mantenendo un costo di diffusione costante. Gli esperimenti indicano una migliore qualità di generazione e scalabilità in risoluzione. L'articolo è disponibile su arXiv nella categoria Computer Vision e Pattern Recognition.
Fatti principali
- RaPD esegue la diffusione in uno spazio latente continuo di Neural Image Field (NIF).
- Utilizza la Guida alla Rappresentazione Semantica per l'apprendimento latente consapevole della generazione.
- Utilizza un Renderer di Attenzione Interrogato da Coordinate per un rendering condizionato dalle coordinate e consapevole della scala.
- Un singolo latente denoised può essere renderizzato a risoluzioni arbitrarie modificando le coordinate di interrogazione.
- Il costo di diffusione rimane fisso indipendentemente dalla risoluzione di output.
- Gli esperimenti mostrano una qualità di generazione superiore e scalabilità in risoluzione.
- L'articolo è categorizzato in Computer Science > Computer Vision and Pattern Recognition.
- L'articolo è disponibile su arXiv con ID 2605.15908.
Entità
Istituzioni
- arXiv