L'attenzione sparsa adattiva per testa accelera la diffusione video

ai-technology · 2026-05-16

Un nuovo metodo senza addestramento, HASTE, accelera i modelli di diffusione video affrontando le inefficienze nell'attenzione sparsa. L'attuale attenzione sparsa senza addestramento soffre di costi elevati di previsione della maschera e soglie uniformi tra le teste di attenzione, limitando il compromesso velocità-qualità. HASTE introduce due componenti: Temporal Mask Reuse, che salta la previsione non necessaria della maschera monitorando la deriva query-key, e Error-guided Budgeted Calibration, che assegna soglie di sparsità per testa per minimizzare l'errore dell'output del modello sotto un budget globale. Testato su Wan2.1-1.3B, il metodo migliora l'efficienza senza riaddestramento.

Fatti principali

HASTE è un metodo di accelerazione della diffusione video senza addestramento.
Utilizza attenzione sparsa adattiva per testa.
Temporal Mask Reuse salta la previsione della maschera basandosi sulla deriva query-key.
Error-guided Budgeted Calibration assegna soglie top-p per testa.
Mira a migliorare il compromesso velocità-qualità nei Video DiT.
Testato su Wan2.1-1.3B.
L'attenzione completa ha complessità quadratica.
L'attenzione sparsa esistente utilizza soglie condivise nonostante l'eterogeneità a livello di testa.

L'attenzione sparsa adattiva per testa accelera la diffusione video

Fatti principali

Entità

Istituzioni

Fonti