Compressione della Cache KV per Modelli Visione-Linguaggio
Un nuovo articolo di ricerca su arXiv (2605.16439) introduce KVCapsule, un metodo per la compressione sequenziale efficiente della cache KV nei Modelli Visione-Linguaggio (VLM). I VLM estendono i Grandi Modelli Linguistici (LLM) al ragionamento multimodale con input di testo e immagini, ma soffrono di un elevato overhead di memoria a causa delle grandi cache chiave-valore durante la decodifica autoregressiva. Le immagini producono sequenze di token più lunghe e rappresentazioni di caratteristiche più dense rispetto al testo, e i token visivi mostrano pattern di attenzione strutturati che rendono inefficaci molte tecniche di compressione orientate agli LLM. Gli autori conducono un'analisi empirica del comportamento dei token visivi e propongono KVCapsule per affrontare queste sfide.
Fatti principali
- Articolo su arXiv: 2605.16439
- Titolo: KVCapsule: Compressione Sequenziale Efficiente della Cache KV per Modelli Visione-Linguaggio con Ridondanza Asimmetrica
- Si concentra sulla compressione della cache KV per VLM
- I VLM estendono gli LLM al ragionamento multimodale
- Le immagini producono sequenze di token più lunghe e caratteristiche più dense
- I token visivi hanno pattern di attenzione strutturati
- Le tecniche di compressione orientate agli LLM sono inefficaci per i VLM
- Propone KVCapsule basato su analisi empirica
Entità
Istituzioni
- arXiv