MuKV: Compressione della Cache KV a Grana Multipla per il QA su Video Streaming Lunghi

other · 2026-05-23

MuKV è una tecnica progettata per ottimizzare le cache chiave-valore nei modelli linguistici di grandi dimensioni, facilitando un efficace question-answering per video streaming lunghi. Impiega rappresentazioni visive a grana multipla a livello di patch, frame e segmento, mantenendo sia i dettagli locali che il contesto temporale generale. Un metodo di compressione dei token a doppio segnale, influenzato dall'auto-attenzione e dalla frequenza, minimizza il consumo di memoria. Inoltre, la strategia incorpora un sistema di recupero semi-gerarchico per gestire sia le cache KV offline che online. MuKV affronta efficacemente i problemi dell'aumento dei token visivi e della limitata lunghezza di ragionamento nei LLM per il question-answering su video streaming.

Fatti principali

MuKV è proposto per il QA su video streaming lunghi.
Presenta una compressione della cache KV a grana multipla.
Le rappresentazioni visive sono estratte a livello di patch, frame e segmento.
Un meccanismo di compressione dei token a doppio segnale utilizza auto-attenzione e frequenza.
Il metodo include un approccio di recupero semi-gerarchico.
Si rivolge sia alle cache KV offline che online.
MuKV mira a migliorare efficienza e accuratezza.
L'articolo è su arXiv con ID 2605.22269.

Entità

—

Fonti

arXiv cs.AI — 2026-05-23