Compressione della Cache KV per Modelli Visione-Linguaggio

ai-technology · 2026-05-20

Un nuovo articolo di ricerca su arXiv (2605.16439) introduce KVCapsule, un metodo per la compressione sequenziale efficiente della cache KV nei Modelli Visione-Linguaggio (VLM). I VLM estendono i Grandi Modelli Linguistici (LLM) al ragionamento multimodale con input di testo e immagini, ma soffrono di un elevato overhead di memoria a causa delle grandi cache chiave-valore durante la decodifica autoregressiva. Le immagini producono sequenze di token più lunghe e rappresentazioni di caratteristiche più dense rispetto al testo, e i token visivi mostrano pattern di attenzione strutturati che rendono inefficaci molte tecniche di compressione orientate agli LLM. Gli autori conducono un'analisi empirica del comportamento dei token visivi e propongono KVCapsule per affrontare queste sfide.

Fatti principali

Articolo su arXiv: 2605.16439
Titolo: KVCapsule: Compressione Sequenziale Efficiente della Cache KV per Modelli Visione-Linguaggio con Ridondanza Asimmetrica
Si concentra sulla compressione della cache KV per VLM
I VLM estendono gli LLM al ragionamento multimodale
Le immagini producono sequenze di token più lunghe e caratteristiche più dense
I token visivi hanno pattern di attenzione strutturati
Le tecniche di compressione orientate agli LLM sono inefficaci per i VLM
Propone KVCapsule basato su analisi empirica

Compressione della Cache KV per Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti