L'attenzione sparsa adattiva per testa accelera la diffusione video
Un nuovo metodo senza addestramento, HASTE, accelera i modelli di diffusione video affrontando le inefficienze nell'attenzione sparsa. L'attuale attenzione sparsa senza addestramento soffre di costi elevati di previsione della maschera e soglie uniformi tra le teste di attenzione, limitando il compromesso velocità-qualità. HASTE introduce due componenti: Temporal Mask Reuse, che salta la previsione non necessaria della maschera monitorando la deriva query-key, e Error-guided Budgeted Calibration, che assegna soglie di sparsità per testa per minimizzare l'errore dell'output del modello sotto un budget globale. Testato su Wan2.1-1.3B, il metodo migliora l'efficienza senza riaddestramento.
Fatti principali
- HASTE è un metodo di accelerazione della diffusione video senza addestramento.
- Utilizza attenzione sparsa adattiva per testa.
- Temporal Mask Reuse salta la previsione della maschera basandosi sulla deriva query-key.
- Error-guided Budgeted Calibration assegna soglie top-p per testa.
- Mira a migliorare il compromesso velocità-qualità nei Video DiT.
- Testato su Wan2.1-1.3B.
- L'attenzione completa ha complessità quadratica.
- L'attenzione sparsa esistente utilizza soglie condivise nonostante l'eterogeneità a livello di testa.
Entità
Istituzioni
- arXiv