ARTFEED — Contemporary Art Intelligence

L'attenzione sparsa adattiva per testa accelera la diffusione video

ai-technology · 2026-05-16

Un nuovo metodo senza addestramento, HASTE, accelera i modelli di diffusione video affrontando le inefficienze nell'attenzione sparsa. L'attuale attenzione sparsa senza addestramento soffre di costi elevati di previsione della maschera e soglie uniformi tra le teste di attenzione, limitando il compromesso velocità-qualità. HASTE introduce due componenti: Temporal Mask Reuse, che salta la previsione non necessaria della maschera monitorando la deriva query-key, e Error-guided Budgeted Calibration, che assegna soglie di sparsità per testa per minimizzare l'errore dell'output del modello sotto un budget globale. Testato su Wan2.1-1.3B, il metodo migliora l'efficienza senza riaddestramento.

Fatti principali

  • HASTE è un metodo di accelerazione della diffusione video senza addestramento.
  • Utilizza attenzione sparsa adattiva per testa.
  • Temporal Mask Reuse salta la previsione della maschera basandosi sulla deriva query-key.
  • Error-guided Budgeted Calibration assegna soglie top-p per testa.
  • Mira a migliorare il compromesso velocità-qualità nei Video DiT.
  • Testato su Wan2.1-1.3B.
  • L'attenzione completa ha complessità quadratica.
  • L'attenzione sparsa esistente utilizza soglie condivise nonostante l'eterogeneità a livello di testa.

Entità

Istituzioni

  • arXiv

Fonti