ViTok-v2: Tokenizzatore di immagini con 5 miliardi di parametri e supporto nativo della risoluzione
ViTok-v2, un avanzato autoencoder Vision Transformer con 5 miliardi di parametri, offre supporto nativo della risoluzione e garantisce un addestramento stabile senza l'uso di perdite avversarie. Questo sviluppo si basa su ViTok (Hansen-Estruch et al., 2025), che ha rivelato un compromesso tra ricostruzione e generazione influenzato dal rapporto di compressione r. ViTok-v2 incorpora NaFlex per una migliore generalizzazione attraverso varie risoluzioni e rapporti d'aspetto, insieme a una perdita percettiva DINOv3 che sostituisce gli obiettivi LPIPS e GAN. Con un addestramento condotto su circa 2 miliardi di immagini, si presenta come il più grande autoencoder di immagini fino ad oggi. Questa ricerca affronta le carenze dei precedenti tokenizzatori ViT che faticano oltre le risoluzioni di addestramento e dipendono da perdite avversarie per la stabilità. L'articolo è disponibile su arXiv con riferimento 2605.05331.
Fatti principali
- ViTok-v2 è un autoencoder Vision Transformer con 5 miliardi di parametri.
- Supporta la generalizzazione nativa di risoluzione e rapporto d'aspetto tramite NaFlex.
- Una nuova perdita percettiva DINOv3 sostituisce gli obiettivi LPIPS e GAN.
- Addestrato su circa 2 miliardi di immagini.
- È il più grande autoencoder di immagini fino ad oggi.
- Si basa su ViTok (Hansen-Estruch et al., 2025).
- Affronta il degrado delle prestazioni al di fuori delle risoluzioni di addestramento.
- Consente un scaling stabile senza perdite avversarie.
Entità
Artisti
- Hansen-Estruch