SPpruner: Riduzione dei Token Visivi Centrata sul Soggetto per VLM

other · 2026-05-22

Un nuovo metodo chiamato SPpruner riduce i costi computazionali nei modelli linguistico-visivi (VLM) potando progressivamente i token visivi. Imita il meccanismo di percezione visiva umana 'focus-poi-contesto'. Un modulo di identificazione del focus modella la salienza visiva e la rilevanza semantica per preservare una rappresentazione fedele del soggetto. Un modulo di scansione strutturale sensibile al contesto aggrega quindi gli indizi contestuali. L'approccio mira a mantenere i soggetti salienti e le loro relazioni riducendo il numero di token, affrontando il collo di bottiglia delle sequenze massive di token visivi durante l'inferenza.

Fatti principali

SPpruner è un paradigma di riduzione progressiva centrata sul soggetto per VLM.
Emula il meccanismo Focus-then-Context della percezione visiva umana.
Un modulo di identificazione del focus modella l'interazione tra salienza visiva e rilevanza semantica.
Un modulo di scansione strutturale sensibile al contesto aggrega gli indizi contestuali.
Il metodo mira a ridurre i costi computazionali derivanti da sequenze massive di token visivi.
Preserva una rappresentazione ad alta fedeltà dell'input visivo.
L'approccio esplora i soggetti salienti e le loro relazioni contestuali.
L'articolo è disponibile su arXiv con ID 2605.20950.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21