ARTFEED — Contemporary Art Intelligence

Acceleratore Hardware per il Decodifica dell'Attenzione in Modelli Linguistici di Grandi Dimensioni con Contesto Lungo

ai-technology · 2026-04-30

Un nuovo acceleratore hardware affronta le sfide computazionali della decodifica dell'attenzione in contesti lunghi nei modelli linguistici di grandi dimensioni. Le richieste di memoria e larghezza di banda della fase di decodifica crescono linearmente con la lunghezza della sequenza, degradando le prestazioni sugli acceleratori esistenti progettati per contesti brevi. La soluzione proposta utilizza un co-design hardware-software: dal lato software, l'attenzione sparsa dinamica a doppia compressione combina quantizzazione a precisione ultra-bassa con sparsità delle caratteristiche per ridurre il sovraccarico, e una selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n). Dal lato hardware, l'acceleratore è profondamente ottimizzato per questi calcoli sparsi. Il lavoro è pubblicato su arXiv (2604.24820).

Fatti principali

  • I contesti lunghi aumentano il carico computazionale e di memoria linearmente con la lunghezza della sequenza.
  • La fase di decodifica accede continuamente a un'enorme cache KV, aumentando la pressione su larghezza di banda e calcolo.
  • Gli acceleratori esistenti subiscono un degrado delle prestazioni su contesti lunghi.
  • L'acceleratore proposto utilizza un co-design hardware-software.
  • Software: attenzione sparsa dinamica a doppia compressione con quantizzazione a precisione ultra-bassa e sparsità delle caratteristiche.
  • La selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n).
  • L'hardware è profondamente ottimizzato per calcoli sparsi.
  • L'articolo è disponibile su arXiv con ID 2604.24820.

Entità

Istituzioni

  • arXiv

Fonti