Gestione Predittiva della Memoria a Più Livelli per la Cache KV nell'Inferenza GPU su Larga Scala
Un nuovo sistema affronta significativi colli di bottiglia nella gestione della memoria cache key-value (KV) per l'inferenza GPU su larga scala. Risolve tre principali inefficienze: l'assenza di una dimensione standardizzata della cache KV tra diverse architetture di attenzione (come l'attenzione latente multi-testa, che porta a un sovradimensionamento fino a 57 volte), la dipendenza esclusiva dalla GPU HBM nonostante siano disponibili altre gerarchie di memoria (come CPU DRAM, CXL, NVMe, RDMA e filesystem paralleli) e strategie di espulsione non reattive. Il motore di dimensionamento, che considera le variazioni architetturali, calcola con precisione la memoria richiesta per ogni tipo di attenzione, facilitando dimensioni batch fino a 7,4 volte maggiori.
Fatti principali
- La gestione della memoria cache KV è il principale collo di bottiglia nell'inferenza GPU su larga scala.
- I sistemi attuali mancano di un dimensionamento unificato della cache KV tra le architetture di attenzione.
- L'attenzione latente multi-testa (MLA) non è supportata nei framework generici, causando un sovradimensionamento della memoria fino a 57 volte.
- La cache KV è confinata a un singolo livello di memoria (GPU HBM) nonostante la gerarchia disponibile.
- Le politiche di espulsione reattive scartano stato riutilizzabile, forzando ricalcoli ridondanti.
- Il sistema proposto affronta tutti e tre i problemi.
- Il motore di dimensionamento consapevole delle variazioni architetturali calcola i requisiti esatti di memoria per tipo di attenzione.
- Consente dimensioni batch fino a 7,4 volte maggiori.
Entità
—