ARTFEED — Contemporary Art Intelligence

MuKV: Compressione della Cache KV a Grana Multipla per il QA su Video Streaming Lunghi

other · 2026-05-23

MuKV è una tecnica progettata per ottimizzare le cache chiave-valore nei modelli linguistici di grandi dimensioni, facilitando un efficace question-answering per video streaming lunghi. Impiega rappresentazioni visive a grana multipla a livello di patch, frame e segmento, mantenendo sia i dettagli locali che il contesto temporale generale. Un metodo di compressione dei token a doppio segnale, influenzato dall'auto-attenzione e dalla frequenza, minimizza il consumo di memoria. Inoltre, la strategia incorpora un sistema di recupero semi-gerarchico per gestire sia le cache KV offline che online. MuKV affronta efficacemente i problemi dell'aumento dei token visivi e della limitata lunghezza di ragionamento nei LLM per il question-answering su video streaming.

Fatti principali

  • MuKV è proposto per il QA su video streaming lunghi.
  • Presenta una compressione della cache KV a grana multipla.
  • Le rappresentazioni visive sono estratte a livello di patch, frame e segmento.
  • Un meccanismo di compressione dei token a doppio segnale utilizza auto-attenzione e frequenza.
  • Il metodo include un approccio di recupero semi-gerarchico.
  • Si rivolge sia alle cache KV offline che online.
  • MuKV mira a migliorare efficienza e accuratezza.
  • L'articolo è su arXiv con ID 2605.22269.

Entità

Fonti