CIVIC: Modello Linguistico-Visivo Efficiente tramite Inferenza Visiva Compatta
Un nuovo articolo introduce CIVIC, un framework di inferenza visiva compatta path-consistent per modelli linguistico-visivi (VLM). Affronta i colli di bottiglia di memoria e latenza derivanti da token visivi ad alta risoluzione mantenendo rappresentazioni sequenziali compatte attraverso l'encoder visivo, il layer di proiezione, il prefill dell'LLM e la KV-cache. Ciò evita accessi di memoria non contigui e overhead di unmerge localizzati, traducendo le riduzioni sequenziali in una reale efficienza hardware. Valutato su Qwen3-VL, CIVIC riduce la memoria della KV-cache a circa un terzo del baseline e taglia il tempo di inferenza end-to-end. L'articolo è disponibile su arXiv.
Fatti principali
- CIVIC è un framework di inferenza visiva compatta path-consistent per VLM.
- Mantiene sequenze compatte attraverso encoder visivo, layer di proiezione, prefill dell'LLM e KV-cache.
- Evita accessi di memoria non contigui e overhead di unmerge localizzati.
- Valutato sull'architettura Qwen3-VL.
- Memoria della KV-cache ridotta a circa un terzo del baseline.
- Tempo di inferenza end-to-end ridotto.
- Articolo pubblicato su arXiv con ID 2605.28115.
Entità
Istituzioni
- arXiv