KVServe: Compressione Adattiva della Cache KV per il Serving di LLM

ai-technology · 2026-05-14

KVServe è un framework innovativo progettato per la compressione adattiva e consapevole del servizio della comunicazione KV, pensato per il serving disaggregato di LLM, come descritto in un articolo su arXiv (2605.13734). Questo framework affronta le sfide poste dal trasferimento della cache KV attraverso i confini di rete e storage in ambienti di produzione. A differenza delle tecniche di compressione statica tradizionali, KVServe si adatta alle fluttuazioni del carico di lavoro, della larghezza di banda e dei budget SLO/qualità. Integra la compressione KV in uno spazio di strategia modulare con nuovi componenti e ricomposizione cross-metodo, impiegando un motore di profilazione bayesiano per esplorare efficacemente questo spazio e identificare un insieme di candidati 3D di Pareto. L'obiettivo principale di questo framework è migliorare l'efficienza e ridurre la latenza nel serving disaggregato di LLM.

Fatti principali

KVServe è un framework di compressione della comunicazione KV adattivo e consapevole del servizio.
Si rivolge al serving disaggregato di LLM con separazione PD e disaggregazione dello stato KV.
I metodi di compressione KV esistenti sono statici e subottimali in contesti di servizio variabili.
KVServe unifica la compressione KV in uno spazio di strategia modulare.
Introduce un motore di profilazione bayesiano per una ricerca efficiente.
Il motore distillisce un insieme di candidati 3D di Pareto.
L'articolo è disponibile su arXiv con ID 2605.13734.
Il framework si adatta al carico di lavoro, alla larghezza di banda e ai budget SLO/qualità.

KVServe: Compressione Adattiva della Cache KV per il Serving di LLM

Fatti principali

Entità

Istituzioni

Fonti