ARTFEED — Contemporary Art Intelligence

CIVIC: Modello Linguistico-Visivo Efficiente tramite Inferenza Visiva Compatta

ai-technology · 2026-05-28

Un nuovo articolo introduce CIVIC, un framework di inferenza visiva compatta path-consistent per modelli linguistico-visivi (VLM). Affronta i colli di bottiglia di memoria e latenza derivanti da token visivi ad alta risoluzione mantenendo rappresentazioni sequenziali compatte attraverso l'encoder visivo, il layer di proiezione, il prefill dell'LLM e la KV-cache. Ciò evita accessi di memoria non contigui e overhead di unmerge localizzati, traducendo le riduzioni sequenziali in una reale efficienza hardware. Valutato su Qwen3-VL, CIVIC riduce la memoria della KV-cache a circa un terzo del baseline e taglia il tempo di inferenza end-to-end. L'articolo è disponibile su arXiv.

Fatti principali

  • CIVIC è un framework di inferenza visiva compatta path-consistent per VLM.
  • Mantiene sequenze compatte attraverso encoder visivo, layer di proiezione, prefill dell'LLM e KV-cache.
  • Evita accessi di memoria non contigui e overhead di unmerge localizzati.
  • Valutato sull'architettura Qwen3-VL.
  • Memoria della KV-cache ridotta a circa un terzo del baseline.
  • Tempo di inferenza end-to-end ridotto.
  • Articolo pubblicato su arXiv con ID 2605.28115.

Entità

Istituzioni

  • arXiv

Fonti