ProxyKV: Potatura della Cache KV Cross-Modello per LLM a Contesto Lungo
Un nuovo framework chiamato ProxyKV affronta il collo di bottiglia della memoria della cache Key-Value (KV) nell'inferenza di modelli linguistici di grandi dimensioni (LLM) a contesto lungo. I metodi di potatura esistenti utilizzano euristiche a bassa latenza che sacrificano l'accuratezza o ricostruzioni ad alta precisione con costi di precompilazione proibitivi. ProxyKV colma questo divario delegando il punteggio di importanza a un proxy Small-Model leggero della stessa famiglia di modelli, che viene eseguito in modo asincrono rispetto al target Large-Model. Per gestire le differenze architetturali tra i modelli, gli autori introducono HybridAxialMapper, che separa l'estrazione delle caratteristiche temporali dall'allineamento cross-head, e una Multi-Granularity Hybrid Loss che sposta l'apprendimento dalla regressione alla coerenza del ranking relativo. Il framework è stato valutato sulle famiglie Llama-3.1, Qwen-2.5 e Qwen-3, con dimensioni target da 7B a 32B parametri. L'articolo è disponibile su arXiv con identificativo 2605.16360.
Fatti principali
- ProxyKV utilizza un framework di potatura proxy cross-modello per la cache KV.
- Delega il punteggio di importanza a un proxy Small-Model leggero.
- Il proxy viene eseguito in modo asincrono rispetto al target Large-Model.
- HybridAxialMapper separa le caratteristiche temporali da quelle cross-head.
- Multi-Granularity Hybrid Loss utilizza la coerenza del ranking relativo.
- Valutato sulle famiglie Llama-3.1, Qwen-2.5 e Qwen-3.
- Le dimensioni target vanno da 7B a 32B parametri.
- Articolo disponibile su arXiv:2605.16360.
Entità
Istituzioni
- arXiv