Acceleratore Hardware per il Decodifica dell'Attenzione in Modelli Linguistici di Grandi Dimensioni con Contesto Lungo

ai-technology · 2026-04-30

Un nuovo acceleratore hardware affronta le sfide computazionali della decodifica dell'attenzione in contesti lunghi nei modelli linguistici di grandi dimensioni. Le richieste di memoria e larghezza di banda della fase di decodifica crescono linearmente con la lunghezza della sequenza, degradando le prestazioni sugli acceleratori esistenti progettati per contesti brevi. La soluzione proposta utilizza un co-design hardware-software: dal lato software, l'attenzione sparsa dinamica a doppia compressione combina quantizzazione a precisione ultra-bassa con sparsità delle caratteristiche per ridurre il sovraccarico, e una selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n). Dal lato hardware, l'acceleratore è profondamente ottimizzato per questi calcoli sparsi. Il lavoro è pubblicato su arXiv (2604.24820).

Fatti principali

I contesti lunghi aumentano il carico computazionale e di memoria linearmente con la lunghezza della sequenza.
La fase di decodifica accede continuamente a un'enorme cache KV, aumentando la pressione su larghezza di banda e calcolo.
Gli acceleratori esistenti subiscono un degrado delle prestazioni su contesti lunghi.
L'acceleratore proposto utilizza un co-design hardware-software.
Software: attenzione sparsa dinamica a doppia compressione con quantizzazione a precisione ultra-bassa e sparsità delle caratteristiche.
La selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n).
L'hardware è profondamente ottimizzato per calcoli sparsi.
L'articolo è disponibile su arXiv con ID 2604.24820.

Acceleratore Hardware per il Decodifica dell'Attenzione in Modelli Linguistici di Grandi Dimensioni con Contesto Lungo

Fatti principali

Entità

Istituzioni

Fonti