MuKV: Compressione della Cache KV a Grana Multipla per il QA su Video Streaming Lunghi
MuKV è una tecnica progettata per ottimizzare le cache chiave-valore nei modelli linguistici di grandi dimensioni, facilitando un efficace question-answering per video streaming lunghi. Impiega rappresentazioni visive a grana multipla a livello di patch, frame e segmento, mantenendo sia i dettagli locali che il contesto temporale generale. Un metodo di compressione dei token a doppio segnale, influenzato dall'auto-attenzione e dalla frequenza, minimizza il consumo di memoria. Inoltre, la strategia incorpora un sistema di recupero semi-gerarchico per gestire sia le cache KV offline che online. MuKV affronta efficacemente i problemi dell'aumento dei token visivi e della limitata lunghezza di ragionamento nei LLM per il question-answering su video streaming.
Fatti principali
- MuKV è proposto per il QA su video streaming lunghi.
- Presenta una compressione della cache KV a grana multipla.
- Le rappresentazioni visive sono estratte a livello di patch, frame e segmento.
- Un meccanismo di compressione dei token a doppio segnale utilizza auto-attenzione e frequenza.
- Il metodo include un approccio di recupero semi-gerarchico.
- Si rivolge sia alle cache KV offline che online.
- MuKV mira a migliorare efficienza e accuratezza.
- L'articolo è su arXiv con ID 2605.22269.
Entità
—