CIVIC: Modello Linguistico-Visivo Efficiente tramite Inferenza Visiva Compatta

ai-technology · 2026-05-28

Un nuovo articolo introduce CIVIC, un framework di inferenza visiva compatta path-consistent per modelli linguistico-visivi (VLM). Affronta i colli di bottiglia di memoria e latenza derivanti da token visivi ad alta risoluzione mantenendo rappresentazioni sequenziali compatte attraverso l'encoder visivo, il layer di proiezione, il prefill dell'LLM e la KV-cache. Ciò evita accessi di memoria non contigui e overhead di unmerge localizzati, traducendo le riduzioni sequenziali in una reale efficienza hardware. Valutato su Qwen3-VL, CIVIC riduce la memoria della KV-cache a circa un terzo del baseline e taglia il tempo di inferenza end-to-end. L'articolo è disponibile su arXiv.

Fatti principali

CIVIC è un framework di inferenza visiva compatta path-consistent per VLM.
Mantiene sequenze compatte attraverso encoder visivo, layer di proiezione, prefill dell'LLM e KV-cache.
Evita accessi di memoria non contigui e overhead di unmerge localizzati.
Valutato sull'architettura Qwen3-VL.
Memoria della KV-cache ridotta a circa un terzo del baseline.
Tempo di inferenza end-to-end ridotto.
Articolo pubblicato su arXiv con ID 2605.28115.

CIVIC: Modello Linguistico-Visivo Efficiente tramite Inferenza Visiva Compatta

Fatti principali

Entità

Istituzioni

Fonti