LightKV: Riduzione della Cache KV dei Token Visivi negli LVLM
I ricercatori propongono LightKV, un metodo per ridurre la dimensione della cache Key-Value (KV) nei Large Vision-Language Models (LVLM) sfruttando la ridondanza tra gli embedding dei token visivi. Guidato da prompt testuali, LightKV utilizza il passaggio di messaggi cross-modale per aggregare e comprimere i token visivi durante la fase di prefill, distinguendosi dalle precedenti strategie di compressione solo visiva. Valutato su otto LVLM open-source in otto benchmark tra cui MME e SeedBench, LightKV raggiunge prestazioni con solo il 55% dei token visivi originali, riducendo significativamente l'overhead di memoria GPU.
Fatti principali
- LightKV riduce la dimensione della cache KV negli LVLM.
- Utilizza il passaggio di messaggi cross-modale guidato da prompt testuali.
- Valutato su otto LVLM open-source e otto benchmark.
- Raggiunge prestazioni con il 55% dei token visivi originali.
- Affronta l'overhead di memoria GPU derivante dai token visivi.
- Si distingue dai precedenti metodi di compressione solo visiva.
- Testato sui dataset MME e SeedBench.
- Pubblicato su arXiv con ID 2605.00789.
Entità
Istituzioni
- arXiv