CapKV: Evizione della Cache KV Consapevole della Capacità tramite Information Bottleneck
Uno studio recente pubblicato su arXiv introduce CapKV, una nuova strategia di evizione della cache chiave-valore basata sul principio dell'Information Bottleneck. Utilizzando un'approssimazione lineare-gaussiana dell'attenzione, i ricercatori formulano un obiettivo di mutua informazione in forma chiusa che definisce la capacità informativa effettiva di un sottoinsieme selezionato della cache KV. Questo approccio dimostra che molti attuali metodi di evizione sono solo approssimazioni del concetto di massimizzazione della capacità. CapKV mira a migliorare la ritenzione delle informazioni attraverso un'approssimazione log-determinante basata su punteggi di leva statistica, allontanandosi dai metodi euristici. Questa ricerca affronta i limiti di memoria associati alla cache KV durante l'inferenza LLM a lungo contesto.
Fatti principali
- Titolo del paper: Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective
- arXiv ID: 2604.25975
- Tipo di annuncio: cross
- Propone CapKV, un metodo di evizione consapevole della capacità
- Utilizza il principio dell'Information Bottleneck
- Deriva un obiettivo di mutua informazione in forma chiusa sotto un surrogato lineare-gaussiano
- Le strategie di evizione esistenti sono approssimazioni della massimizzazione della capacità
- CapKV utilizza un'approssimazione log-determinante con punteggi di leva
Entità
Istituzioni
- arXiv