ARTFEED — Contemporary Art Intelligence

SplitZip: Compressione KV Lossless Ottimizzata per GPU nel Serving di LLM

ai-technology · 2026-05-06

SplitZip è un compressore lossless ottimizzato per GPU progettato per accelerare il trasferimento della cache KV nei sistemi di serving disaggregati per LLM. Le architetture moderne di serving separano le fasi di prefill e decode su worker diversi, richiedendo il trasferimento della cache KV dai worker di prefill a quelli di decode. Questo trasferimento diventa un collo di bottiglia, specialmente per carichi di lavoro con input lunghi e agentici. I codec lossless esistenti sono pensati per la compressione offline dei pesi, si basano sulla CPU o utilizzano codifiche a lunghezza variabile che decompongono velocemente ma comprimono lentamente per l'uso online. SplitZip sfrutta la ridondanza negli esponenti in virgola mobile delle attivazioni KV, codificandoli efficientemente sulla GPU. Raggiunge velocità di compressione e decompressione ultraveloci adatte al serving online.

Fatti principali

  • SplitZip è un compressore lossless per il trasferimento della cache KV nel serving disaggregato di LLM.
  • Mira al collo di bottiglia del trasferimento della cache KV dai worker di prefill a quelli di decode.
  • I codec esistenti non sono adatti a causa della dipendenza dalla CPU o della lenta compressione.
  • SplitZip sfrutta la ridondanza negli esponenti in virgola mobile delle attivazioni KV.
  • È ottimizzato per GPU e progettato per l'uso online.
  • Il lavoro è pubblicato su arXiv con ID 2605.01708.
  • Affronta carichi di lavoro con input lunghi e agentici.
  • Il compressore è lossless.

Entità

Istituzioni

  • arXiv

Fonti