Paradigma di Trasferimento Latente-Pixel per Modelli di Diffusione a Pixel Efficienti

ai-technology · 2026-05-13

Un nuovo paradigma di trasferimento chiamato Latente-Pixel (L2P) consente l'addestramento efficiente di modelli di diffusione nello spazio dei pixel sfruttando modelli di diffusione latente (LDM) pre-addestrati. L2P elimina il VAE, utilizza una tokenizzazione a grandi patch, congela i livelli intermedi del LDM sorgente e addestra solo i livelli superficiali per apprendere la trasformazione da latente a pixel. Utilizza immagini sintetiche generate dal LDM come unico corpus di addestramento, eliminando la necessità di dati reali e consentendo una rapida convergenza. Il metodo richiede solo 8 GPU e rimuove il collo di bottiglia della memoria del VAE, permettendo la generazione nativa a risoluzione ultra-alta 4K. L'approccio è descritto in un articolo su arXiv (2605.12013).

Fatti principali

L2P sta per paradigma di trasferimento Latente-Pixel
Utilizza modelli di diffusione latente (LDM) pre-addestrati come sorgente
Il VAE viene eliminato a favore della tokenizzazione a grandi patch
Vengono addestrati solo i livelli superficiali; i livelli intermedi sono congelati
L'addestramento utilizza immagini sintetiche dal LDM, nessun dato reale necessario
Richiede solo 8 GPU per l'addestramento
Consente la generazione nativa a risoluzione ultra-alta 4K
Articolo disponibile su arXiv con ID 2605.12013

Paradigma di Trasferimento Latente-Pixel per Modelli di Diffusione a Pixel Efficienti

Fatti principali

Entità

Istituzioni

Fonti