ARTFEED — Contemporary Art Intelligence

FreqFormer: Diffusione Video Efficiente tramite Attenzione Spettrale Adattiva

ai-technology · 2026-04-29

FreqFormer è una tecnica innovativa che affronta il costo quadratico dell'auto-attenzione nei trasformatori di diffusione video con sequenze lunghe. Questa strategia divide le caratteristiche dei token in diverse bande spettrali: applica un'attenzione globale densa sulle basse frequenze compresse per catturare il layout e il movimento grossolano, utilizza un'attenzione strutturata a blocchi sparsi sulle medie frequenze, e impiega un'attenzione locale a finestra scorrevole sulle alte frequenze per texture e dettagli. Una rete di routing spettrale leggera gestisce l'allocazione delle teste di attenzione tra le bande in base alle statistiche dei layer e ai timestep di diffusione, spostando il focus computazionale dalla struttura globale durante la denoising iniziale ai dettagli più fini successivamente. Inoltre, token di riepilogo cross-banda facilitano scambi residui efficienti. Questo metodo mira a migliorare l'efficienza di runtime e memoria per sequenze di token estremamente lunghe.

Fatti principali

  • 1. FreqFormer è un framework di attenzione eterogenea consapevole della frequenza.
  • 2. Divide le caratteristiche dei token in bande spettrali con operatori diversi.
  • 3. Le basse frequenze ricevono attenzione globale densa; le medie frequenze attenzione strutturata a blocchi sparsi; le alte frequenze attenzione locale a finestra scorrevole.
  • 4. Una rete di routing spettrale leggera alloca le teste tra le bande usando statistiche dei layer e timestep di diffusione.
  • 5. Il calcolo si sposta verso la struttura globale all'inizio della denoising e verso i dettagli successivamente.
  • 6. Token di riepilogo cross-banda forniscono scambio residuo economico.
  • 7. Il metodo è mirato ai trasformatori di diffusione video con sequenze lunghe.
  • 8. Mira a ridurre il costo quadratico dell'auto-attenzione in runtime e memoria.

Entità

Istituzioni

  • arXiv

Fonti