ProxyKV: Potatura della Cache KV Cross-Modello per LLM a Contesto Lungo

ai-technology · 2026-05-20

Un nuovo framework chiamato ProxyKV affronta il collo di bottiglia della memoria della cache Key-Value (KV) nell'inferenza di modelli linguistici di grandi dimensioni (LLM) a contesto lungo. I metodi di potatura esistenti utilizzano euristiche a bassa latenza che sacrificano l'accuratezza o ricostruzioni ad alta precisione con costi di precompilazione proibitivi. ProxyKV colma questo divario delegando il punteggio di importanza a un proxy Small-Model leggero della stessa famiglia di modelli, che viene eseguito in modo asincrono rispetto al target Large-Model. Per gestire le differenze architetturali tra i modelli, gli autori introducono HybridAxialMapper, che separa l'estrazione delle caratteristiche temporali dall'allineamento cross-head, e una Multi-Granularity Hybrid Loss che sposta l'apprendimento dalla regressione alla coerenza del ranking relativo. Il framework è stato valutato sulle famiglie Llama-3.1, Qwen-2.5 e Qwen-3, con dimensioni target da 7B a 32B parametri. L'articolo è disponibile su arXiv con identificativo 2605.16360.

Fatti principali

ProxyKV utilizza un framework di potatura proxy cross-modello per la cache KV.
Delega il punteggio di importanza a un proxy Small-Model leggero.
Il proxy viene eseguito in modo asincrono rispetto al target Large-Model.
HybridAxialMapper separa le caratteristiche temporali da quelle cross-head.
Multi-Granularity Hybrid Loss utilizza la coerenza del ranking relativo.
Valutato sulle famiglie Llama-3.1, Qwen-2.5 e Qwen-3.
Le dimensioni target vanno da 7B a 32B parametri.
Articolo disponibile su arXiv:2605.16360.

ProxyKV: Potatura della Cache KV Cross-Modello per LLM a Contesto Lungo

Fatti principali

Entità

Istituzioni

Fonti