ARTFEED — Contemporary Art Intelligence

Compressione della Cache KV per Modelli Visione-Linguaggio

ai-technology · 2026-05-20

Un nuovo articolo di ricerca su arXiv (2605.16439) introduce KVCapsule, un metodo per la compressione sequenziale efficiente della cache KV nei Modelli Visione-Linguaggio (VLM). I VLM estendono i Grandi Modelli Linguistici (LLM) al ragionamento multimodale con input di testo e immagini, ma soffrono di un elevato overhead di memoria a causa delle grandi cache chiave-valore durante la decodifica autoregressiva. Le immagini producono sequenze di token più lunghe e rappresentazioni di caratteristiche più dense rispetto al testo, e i token visivi mostrano pattern di attenzione strutturati che rendono inefficaci molte tecniche di compressione orientate agli LLM. Gli autori conducono un'analisi empirica del comportamento dei token visivi e propongono KVCapsule per affrontare queste sfide.

Fatti principali

  • Articolo su arXiv: 2605.16439
  • Titolo: KVCapsule: Compressione Sequenziale Efficiente della Cache KV per Modelli Visione-Linguaggio con Ridondanza Asimmetrica
  • Si concentra sulla compressione della cache KV per VLM
  • I VLM estendono gli LLM al ragionamento multimodale
  • Le immagini producono sequenze di token più lunghe e caratteristiche più dense
  • I token visivi hanno pattern di attenzione strutturati
  • Le tecniche di compressione orientate agli LLM sono inefficaci per i VLM
  • Propone KVCapsule basato su analisi empirica

Entità

Istituzioni

  • arXiv

Fonti