FreqFormer: Diffusione Video Efficiente tramite Attenzione Spettrale Adattiva
FreqFormer è una tecnica innovativa che affronta il costo quadratico dell'auto-attenzione nei trasformatori di diffusione video con sequenze lunghe. Questa strategia divide le caratteristiche dei token in diverse bande spettrali: applica un'attenzione globale densa sulle basse frequenze compresse per catturare il layout e il movimento grossolano, utilizza un'attenzione strutturata a blocchi sparsi sulle medie frequenze, e impiega un'attenzione locale a finestra scorrevole sulle alte frequenze per texture e dettagli. Una rete di routing spettrale leggera gestisce l'allocazione delle teste di attenzione tra le bande in base alle statistiche dei layer e ai timestep di diffusione, spostando il focus computazionale dalla struttura globale durante la denoising iniziale ai dettagli più fini successivamente. Inoltre, token di riepilogo cross-banda facilitano scambi residui efficienti. Questo metodo mira a migliorare l'efficienza di runtime e memoria per sequenze di token estremamente lunghe.
Fatti principali
- 1. FreqFormer è un framework di attenzione eterogenea consapevole della frequenza.
- 2. Divide le caratteristiche dei token in bande spettrali con operatori diversi.
- 3. Le basse frequenze ricevono attenzione globale densa; le medie frequenze attenzione strutturata a blocchi sparsi; le alte frequenze attenzione locale a finestra scorrevole.
- 4. Una rete di routing spettrale leggera alloca le teste tra le bande usando statistiche dei layer e timestep di diffusione.
- 5. Il calcolo si sposta verso la struttura globale all'inizio della denoising e verso i dettagli successivamente.
- 6. Token di riepilogo cross-banda forniscono scambio residuo economico.
- 7. Il metodo è mirato ai trasformatori di diffusione video con sequenze lunghe.
- 8. Mira a ridurre il costo quadratico dell'auto-attenzione in runtime e memoria.
Entità
Istituzioni
- arXiv