ARTFEED — Contemporary Art Intelligence

QKVShare: Handoff della KV-Cache Quantizzata per LLM Multi-Agente su Dispositivi

ai-technology · 2026-05-07

Il framework QKVShare, recentemente introdotto, facilita il trasferimento della KV-cache quantizzata tra agenti in sistemi LLM multi-agente operanti su dispositivi edge. Integra l'allocazione a precisione mista a livello di token, una rappresentazione CacheCard autosufficiente e un metodo di iniezione della cache compatibile con HuggingFace. Testato su 150 problemi GSM8K utilizzando Llama-3.1-8B-Instruct, la quantizzazione adattiva si dimostra efficace durante handoff ripetuti, superando in particolare la quantizzazione uniforme in scenari con salti più profondi e budget più elevati. Per quanto riguarda la latenza di handoff, QKVShare ottiene una riduzione del TTFT rispetto al re-prefill completo in tutti i contesti testati: 130,7 ms contro 150,2 ms in un contesto nominale di 1K e 397,1 ms contro 1029,7 ms in un contesto nominale di 8K. L'analisi temporale indica che la latenza è influenzata principalmente dalla generazione post-iniezione piuttosto che dal trasferimento della cache.

Fatti principali

  • 1. QKVShare è un framework per l'handoff della KV-cache quantizzata tra agenti.
  • 2. Utilizza allocazione a precisione mista a livello di token, rappresentazione CacheCard e iniezione della cache compatibile con HuggingFace.
  • 3. Testato su 150 problemi GSM8K con Llama-3.1-8B-Instruct.
  • 4. La quantizzazione adattiva mostra i maggiori vantaggi rispetto a quella uniforme in contesti con salti più profondi e budget più elevati.
  • 5. QKVShare riduce il TTFT rispetto al re-prefill completo in tutti i contesti testati.
  • 6. In contesto 1K: 130,7 ms contro 150,2 ms.
  • 7. In contesto 8K: 397,1 ms contro 1029,7 ms.
  • 8. La generazione post-iniezione domina la latenza, non il trasferimento della cache.

Entità

Istituzioni

  • HuggingFace

Fonti