Acceleratore Hardware per il Decodifica dell'Attenzione in Modelli Linguistici di Grandi Dimensioni con Contesto Lungo
Un nuovo acceleratore hardware affronta le sfide computazionali della decodifica dell'attenzione in contesti lunghi nei modelli linguistici di grandi dimensioni. Le richieste di memoria e larghezza di banda della fase di decodifica crescono linearmente con la lunghezza della sequenza, degradando le prestazioni sugli acceleratori esistenti progettati per contesti brevi. La soluzione proposta utilizza un co-design hardware-software: dal lato software, l'attenzione sparsa dinamica a doppia compressione combina quantizzazione a precisione ultra-bassa con sparsità delle caratteristiche per ridurre il sovraccarico, e una selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n). Dal lato hardware, l'acceleratore è profondamente ottimizzato per questi calcoli sparsi. Il lavoro è pubblicato su arXiv (2604.24820).
Fatti principali
- I contesti lunghi aumentano il carico computazionale e di memoria linearmente con la lunghezza della sequenza.
- La fase di decodifica accede continuamente a un'enorme cache KV, aumentando la pressione su larghezza di banda e calcolo.
- Gli acceleratori esistenti subiscono un degrado delle prestazioni su contesti lunghi.
- L'acceleratore proposto utilizza un co-design hardware-software.
- Software: attenzione sparsa dinamica a doppia compressione con quantizzazione a precisione ultra-bassa e sparsità delle caratteristiche.
- La selezione approssimata Top-K adatta all'hardware riduce la complessità del filtro da O(n log k) a O(n).
- L'hardware è profondamente ottimizzato per calcoli sparsi.
- L'articolo è disponibile su arXiv con ID 2604.24820.
Entità
Istituzioni
- arXiv