Gestione Predittiva della Memoria a Più Livelli per la Cache KV nell'Inferenza GPU su Larga Scala

other · 2026-05-01

Un nuovo sistema affronta significativi colli di bottiglia nella gestione della memoria cache key-value (KV) per l'inferenza GPU su larga scala. Risolve tre principali inefficienze: l'assenza di una dimensione standardizzata della cache KV tra diverse architetture di attenzione (come l'attenzione latente multi-testa, che porta a un sovradimensionamento fino a 57 volte), la dipendenza esclusiva dalla GPU HBM nonostante siano disponibili altre gerarchie di memoria (come CPU DRAM, CXL, NVMe, RDMA e filesystem paralleli) e strategie di espulsione non reattive. Il motore di dimensionamento, che considera le variazioni architetturali, calcola con precisione la memoria richiesta per ogni tipo di attenzione, facilitando dimensioni batch fino a 7,4 volte maggiori.

Fatti principali

La gestione della memoria cache KV è il principale collo di bottiglia nell'inferenza GPU su larga scala.
I sistemi attuali mancano di un dimensionamento unificato della cache KV tra le architetture di attenzione.
L'attenzione latente multi-testa (MLA) non è supportata nei framework generici, causando un sovradimensionamento della memoria fino a 57 volte.
La cache KV è confinata a un singolo livello di memoria (GPU HBM) nonostante la gerarchia disponibile.
Le politiche di espulsione reattive scartano stato riutilizzabile, forzando ricalcoli ridondanti.
Il sistema proposto affronta tutti e tre i problemi.
Il motore di dimensionamento consapevole delle variazioni architetturali calcola i requisiti esatti di memoria per tipo di attenzione.
Consente dimensioni batch fino a 7,4 volte maggiori.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01