GQLA: Attenzione Adattiva all'Hardware per il Decodifica di LLM
Un nuovo metodo chiamato Group-Query Latent Attention (GQLA) è stato introdotto dai ricercatori come miglioramento del Multi-head Latent Attention (MLA) di DeepSeek-V2/V3. Mentre MLA comprime chiavi e valori in una rappresentazione latente a basso rango e raggiunge prestazioni di roofline quasi ottimali sulle GPU H100, è vincolato dai rapporti calcolo-banda specifici dei sistemi di classe H100. Questa limitazione comporta la perdita del parallelismo dei tensori lungo l'asse delle teste e non fornisce miglioramenti di Multi-Token Prediction (MTP) su GPU standard come la H20. GQLA regola minimamente i pesi addestrati di MLA, rivelando due percorsi di decodifica equivalenti: il percorso MQA-absorb, che rispecchia MLA, e un percorso GQA con una cache espansa per gruppo. Questa selezione a runtime consente il percorso ottimale per l'hardware senza necessità di riaddestramento o kernel specializzati, permettendo ai pesi GQLA di offrire prestazioni di roofline sia su H100 (usando MQA-absorb, s_q=1) che su H20 (tramite il percorso GQA). Questa strategia migliora l'adattabilità hardware per l'inferenza di modelli linguistici di grandi dimensioni in presenza di limitazioni all'esportazione.
Fatti principali
- 1. GQLA modifica il Multi-head Latent Attention (MLA) di DeepSeek-V2/V3.
- 2. MLA comprime chiavi e valori in un latente a basso rango.
- 3. MLA raggiunge prestazioni di roofline quasi perfette sulle GPU H100.
- 4. MLA è legato ai rapporti calcolo-banda dei sistemi di classe H100.
- 5. MLA perde il parallelismo dei tensori lungo l'asse delle teste.
- 6. MLA non produce alcun guadagno di Multi-Token Prediction (MTP) sulle GPU H20.
- 7. GQLA espone due percorsi di decodifica: MQA-absorb e GQA.
- 8. GQLA non richiede riaddestramento o kernel personalizzati.
- 9. GQLA è mirato alle GPU H100 e H20.
- 10. L'approccio affronta l'adattabilità hardware sotto restrizioni all'esportazione.
Entità
—