LensVLM: Espansione Selettiva del Contesto per Testo Visivo Compresso
I ricercatori hanno introdotto LensVLM, un framework di inferenza e una strategia di post-addestramento progettati per i Vision Language Models (VLM) per gestire immagini testuali compresse. Questo approccio consente l'espansione selettiva solo delle aree pertinenti al loro stato non compresso. Utilizzando Qwen3.5-9B-Base, LensVLM raggiunge un'accuratezza simile alla massima prestazione del testo completo con una compressione effettiva di 4,3x e supera sia i baselines di compressione testuale che visiva fino a 10,1x di compressione effettiva. Questa tecnica mitiga efficacemente la perdita di accuratezza che si verifica quando i caratteri di testo vengono compressi al di sotto della risoluzione effettiva del codificatore visivo. I risultati sono dettagliati in un articolo disponibile su arXiv (2605.07019).
Fatti principali
- LensVLM è un framework di inferenza e una ricetta di post-addestramento per VLM.
- Consente ai VLM di scansionare immagini compresse ed espandere selettivamente le regioni rilevanti.
- Basato su Qwen3.5-9B-Base.
- Mantiene un'accuratezza paragonabile al limite superiore del testo completo con compressione 4,3x.
- Supera i baselines fino a 10,1x di compressione effettiva.
- Affronta la perdita di accuratezza dovuta al restringimento dei caratteri nelle immagini compresse.
- Articolo disponibile su arXiv con ID 2605.07019.
Entità
Istituzioni
- arXiv