LightKV: Riduzione della Cache KV dei Token Visivi negli LVLM

ai-technology · 2026-05-04

I ricercatori propongono LightKV, un metodo per ridurre la dimensione della cache Key-Value (KV) nei Large Vision-Language Models (LVLM) sfruttando la ridondanza tra gli embedding dei token visivi. Guidato da prompt testuali, LightKV utilizza il passaggio di messaggi cross-modale per aggregare e comprimere i token visivi durante la fase di prefill, distinguendosi dalle precedenti strategie di compressione solo visiva. Valutato su otto LVLM open-source in otto benchmark tra cui MME e SeedBench, LightKV raggiunge prestazioni con solo il 55% dei token visivi originali, riducendo significativamente l'overhead di memoria GPU.

Fatti principali

LightKV riduce la dimensione della cache KV negli LVLM.
Utilizza il passaggio di messaggi cross-modale guidato da prompt testuali.
Valutato su otto LVLM open-source e otto benchmark.
Raggiunge prestazioni con il 55% dei token visivi originali.
Affronta l'overhead di memoria GPU derivante dai token visivi.
Si distingue dai precedenti metodi di compressione solo visiva.
Testato sui dataset MME e SeedBench.
Pubblicato su arXiv con ID 2605.00789.

LightKV: Riduzione della Cache KV dei Token Visivi negli LVLM

Fatti principali

Entità

Istituzioni

Fonti