SparKV: Caricamento Adattivo della Cache KV per l'Inferenza di LLM su Dispositivo

ai-technology · 2026-04-25

SparKV è un framework innovativo che integra lo streaming della cache Key-Value (KV) basato su cloud con l'elaborazione su dispositivo per migliorare l'efficienza dell'inferenza dei modelli linguistici di grandi dimensioni (LLM) sui dispositivi. Valuta il costo di ogni chunk KV, decidendo se trasmetterlo o calcolarlo localmente, riducendo così al minimo la latenza attraverso l'elaborazione simultanea. Inoltre, SparKV adatta in tempo reale i programmi generati offline per far fronte a variazioni nella connettività wireless e nella disponibilità delle risorse edge. I risultati sperimentali indicano che migliora il Time-to-First-Token di un fattore compreso tra 1,3x e 5,1x, con un effetto minimo sulla qualità della risposta, riducendo anche il consumo energetico per richiesta di 1,5x a 3,3x.

Fatti principali

1. SparKV è un framework di caricamento adattivo della KV per l'inferenza di LLM su dispositivo.
2. Combina lo streaming KV basato su cloud con il calcolo su dispositivo.
3. Modella il costo dei singoli chunk KV per decidere tra streaming e calcolo locale.
4. I percorsi di esecuzione sono sovrapposti per ridurre la latenza.
5. Il perfezionamento in tempo reale dei programmi offline gestisce le fluttuazioni di connettività e risorse.
6. Gli esperimenti mostrano una riduzione del Time-to-First-Token da 1,3x a 5,1x.
7. L'impatto sulla qualità della risposta è trascurabile.
8. Il consumo energetico per richiesta è ridotto da 1,5x a 3,3x.

Entità

—

Fonti

arXiv cs.AI — 2026-04-25