ARTFEED — Contemporary Art Intelligence

Paradigma di Trasferimento Latente-Pixel per Modelli di Diffusione a Pixel Efficienti

ai-technology · 2026-05-13

Un nuovo paradigma di trasferimento chiamato Latente-Pixel (L2P) consente l'addestramento efficiente di modelli di diffusione nello spazio dei pixel sfruttando modelli di diffusione latente (LDM) pre-addestrati. L2P elimina il VAE, utilizza una tokenizzazione a grandi patch, congela i livelli intermedi del LDM sorgente e addestra solo i livelli superficiali per apprendere la trasformazione da latente a pixel. Utilizza immagini sintetiche generate dal LDM come unico corpus di addestramento, eliminando la necessità di dati reali e consentendo una rapida convergenza. Il metodo richiede solo 8 GPU e rimuove il collo di bottiglia della memoria del VAE, permettendo la generazione nativa a risoluzione ultra-alta 4K. L'approccio è descritto in un articolo su arXiv (2605.12013).

Fatti principali

  • L2P sta per paradigma di trasferimento Latente-Pixel
  • Utilizza modelli di diffusione latente (LDM) pre-addestrati come sorgente
  • Il VAE viene eliminato a favore della tokenizzazione a grandi patch
  • Vengono addestrati solo i livelli superficiali; i livelli intermedi sono congelati
  • L'addestramento utilizza immagini sintetiche dal LDM, nessun dato reale necessario
  • Richiede solo 8 GPU per l'addestramento
  • Consente la generazione nativa a risoluzione ultra-alta 4K
  • Articolo disponibile su arXiv con ID 2605.12013

Entità

Istituzioni

  • arXiv

Fonti