I Modelli di Miscela Gaussiana Migliorano la Qualità del Campionamento DDIM
Un nuovo approccio migliora la velocità di campionamento da modelli di diffusione denoising pre-addestrati (DDPM) utilizzando un Modello di Miscela Gaussiana (GMM) come kernel di transizione inversa nel contesto dei Modelli di Diffusione Impliciti Denoising (DDIM). Questa tecnica garantisce che i momenti centrali del primo e secondo ordine delle marginali forward del DDPM corrispondano applicando vincoli ai parametri del GMM. Testato su vari modelli, inclusi quelli incondizionati da CelebAHQ e FFHQ, nonché modelli condizionati per classe da ImageNet e generazione testo-immagine con Stable Diffusion v2.1 su COYO700M, i risultati hanno mostrato che l'abbinamento dei momenti può produrre campioni altrettanto buoni o migliori di quelli del DDIM originale con kernel gaussiani, specialmente quando si utilizzano meno passi di campionamento.
Fatti principali
- Propone GMM come kernel di transizione inversa nel framework DDIM
- Abbina i momenti centrali del primo e secondo ordine delle marginali forward del DDPM
- Testato sui dataset CelebAHQ, FFHQ, ImageNet e COYO700M
- Utilizza Stable Diffusion v2.1 per la generazione testo-immagine
- Il kernel GMM migliora la qualità del campione con meno passi di campionamento
- L'abbinamento dei momenti è sufficiente per una qualità uguale o migliore rispetto al DDIM originale
- ID articolo arXiv: 2311.04938
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv