GQLA: Attenzione Adattiva all'Hardware per il Decodifica di LLM

ai-technology · 2026-05-18

Un nuovo metodo chiamato Group-Query Latent Attention (GQLA) è stato introdotto dai ricercatori come miglioramento del Multi-head Latent Attention (MLA) di DeepSeek-V2/V3. Mentre MLA comprime chiavi e valori in una rappresentazione latente a basso rango e raggiunge prestazioni di roofline quasi ottimali sulle GPU H100, è vincolato dai rapporti calcolo-banda specifici dei sistemi di classe H100. Questa limitazione comporta la perdita del parallelismo dei tensori lungo l'asse delle teste e non fornisce miglioramenti di Multi-Token Prediction (MTP) su GPU standard come la H20. GQLA regola minimamente i pesi addestrati di MLA, rivelando due percorsi di decodifica equivalenti: il percorso MQA-absorb, che rispecchia MLA, e un percorso GQA con una cache espansa per gruppo. Questa selezione a runtime consente il percorso ottimale per l'hardware senza necessità di riaddestramento o kernel specializzati, permettendo ai pesi GQLA di offrire prestazioni di roofline sia su H100 (usando MQA-absorb, s_q=1) che su H20 (tramite il percorso GQA). Questa strategia migliora l'adattabilità hardware per l'inferenza di modelli linguistici di grandi dimensioni in presenza di limitazioni all'esportazione.

Fatti principali

1. GQLA modifica il Multi-head Latent Attention (MLA) di DeepSeek-V2/V3.
2. MLA comprime chiavi e valori in un latente a basso rango.
3. MLA raggiunge prestazioni di roofline quasi perfette sulle GPU H100.
4. MLA è legato ai rapporti calcolo-banda dei sistemi di classe H100.
5. MLA perde il parallelismo dei tensori lungo l'asse delle teste.
6. MLA non produce alcun guadagno di Multi-Token Prediction (MTP) sulle GPU H20.
7. GQLA espone due percorsi di decodifica: MQA-absorb e GQA.
8. GQLA non richiede riaddestramento o kernel personalizzati.
9. GQLA è mirato alle GPU H100 e H20.
10. L'approccio affronta l'adattabilità hardware sotto restrizioni all'esportazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18