ARTFEED — Contemporary Art Intelligence

LightKV: Riduzione della Cache KV dei Token Visivi negli LVLM

ai-technology · 2026-05-04

I ricercatori propongono LightKV, un metodo per ridurre la dimensione della cache Key-Value (KV) nei Large Vision-Language Models (LVLM) sfruttando la ridondanza tra gli embedding dei token visivi. Guidato da prompt testuali, LightKV utilizza il passaggio di messaggi cross-modale per aggregare e comprimere i token visivi durante la fase di prefill, distinguendosi dalle precedenti strategie di compressione solo visiva. Valutato su otto LVLM open-source in otto benchmark tra cui MME e SeedBench, LightKV raggiunge prestazioni con solo il 55% dei token visivi originali, riducendo significativamente l'overhead di memoria GPU.

Fatti principali

  • LightKV riduce la dimensione della cache KV negli LVLM.
  • Utilizza il passaggio di messaggi cross-modale guidato da prompt testuali.
  • Valutato su otto LVLM open-source e otto benchmark.
  • Raggiunge prestazioni con il 55% dei token visivi originali.
  • Affronta l'overhead di memoria GPU derivante dai token visivi.
  • Si distingue dai precedenti metodi di compressione solo visiva.
  • Testato sui dataset MME e SeedBench.
  • Pubblicato su arXiv con ID 2605.00789.

Entità

Istituzioni

  • arXiv

Fonti