ARTFEED — Contemporary Art Intelligence

StyleVAR: Modello Autoregressivo Visivo per il Trasferimento di Stile Controllabile

digital · 2026-04-25

StyleVAR è un approccio innovativo al trasferimento di stile delle immagini che utilizza il framework Visual Autoregressive Modeling (VAR). Tratta il trasferimento di stile come un compito di modellazione sequenziale discreta condizionata in uno spazio latente appreso. Le immagini vengono segmentate in rappresentazioni multi-scala e convertite in codici discreti utilizzando un VQ-VAE. Successivamente, un trasformatore predice autoregressivamente la distribuzione dei token target basandosi sui token di stile e contenuto. Viene impiegato un meccanismo di attenzione incrociata miscelata per incorporare le informazioni di stile e contenuto, consentendo alla rappresentazione target in evoluzione di fare riferimento alla propria storia mentre le caratteristiche di stile e contenuto guidano quali aspetti storici evidenziare. Un coefficiente di miscelazione dipendente dalla scala regola l'influenza di stile e contenuto durante tutto il processo, assicurando che l'output sintetizzato mantenga sia la struttura del contenuto che la texture dello stile senza interrompere la continuità autoregressiva di VAR. Il modello viene addestrato in due fasi. La ricerca è disponibile su arXiv con l'identificatore 2604.21052.

Fatti principali

  • 1. StyleVAR si basa sul framework Visual Autoregressive Modeling (VAR).
  • 2. Il trasferimento di stile è formulato come modellazione sequenziale discreta condizionata in uno spazio latente appreso.
  • 3. Le immagini vengono decomposte in rappresentazioni multi-scala e tokenizzate da un VQ-VAE.
  • 4. Un trasformatore modella autoregressivamente i token target condizionati dai token di stile e contenuto.
  • 5. Viene introdotto un meccanismo di attenzione incrociata miscelata per l'iniezione di stile e contenuto.
  • 6. Un coefficiente di miscelazione dipendente dalla scala controlla l'influenza di stile e contenuto in ogni fase.
  • 7. Il modello viene addestrato in due fasi.
  • 8. L'articolo è disponibile su arXiv con l'identificatore 2604.21052.

Entità

Istituzioni

  • arXiv

Fonti