LensVLM: Espansione Selettiva del Contesto per Testo Visivo Compresso

ai-technology · 2026-05-11

I ricercatori hanno introdotto LensVLM, un framework di inferenza e una strategia di post-addestramento progettati per i Vision Language Models (VLM) per gestire immagini testuali compresse. Questo approccio consente l'espansione selettiva solo delle aree pertinenti al loro stato non compresso. Utilizzando Qwen3.5-9B-Base, LensVLM raggiunge un'accuratezza simile alla massima prestazione del testo completo con una compressione effettiva di 4,3x e supera sia i baselines di compressione testuale che visiva fino a 10,1x di compressione effettiva. Questa tecnica mitiga efficacemente la perdita di accuratezza che si verifica quando i caratteri di testo vengono compressi al di sotto della risoluzione effettiva del codificatore visivo. I risultati sono dettagliati in un articolo disponibile su arXiv (2605.07019).

Fatti principali

LensVLM è un framework di inferenza e una ricetta di post-addestramento per VLM.
Consente ai VLM di scansionare immagini compresse ed espandere selettivamente le regioni rilevanti.
Basato su Qwen3.5-9B-Base.
Mantiene un'accuratezza paragonabile al limite superiore del testo completo con compressione 4,3x.
Supera i baselines fino a 10,1x di compressione effettiva.
Affronta la perdita di accuratezza dovuta al restringimento dei caratteri nelle immagini compresse.
Articolo disponibile su arXiv con ID 2605.07019.

LensVLM: Espansione Selettiva del Contesto per Testo Visivo Compresso

Fatti principali

Entità

Istituzioni

Fonti