SPpruner: Riduzione dei Token Visivi Centrata sul Soggetto per VLM
Un nuovo metodo chiamato SPpruner riduce i costi computazionali nei modelli linguistico-visivi (VLM) potando progressivamente i token visivi. Imita il meccanismo di percezione visiva umana 'focus-poi-contesto'. Un modulo di identificazione del focus modella la salienza visiva e la rilevanza semantica per preservare una rappresentazione fedele del soggetto. Un modulo di scansione strutturale sensibile al contesto aggrega quindi gli indizi contestuali. L'approccio mira a mantenere i soggetti salienti e le loro relazioni riducendo il numero di token, affrontando il collo di bottiglia delle sequenze massive di token visivi durante l'inferenza.
Fatti principali
- SPpruner è un paradigma di riduzione progressiva centrata sul soggetto per VLM.
- Emula il meccanismo Focus-then-Context della percezione visiva umana.
- Un modulo di identificazione del focus modella l'interazione tra salienza visiva e rilevanza semantica.
- Un modulo di scansione strutturale sensibile al contesto aggrega gli indizi contestuali.
- Il metodo mira a ridurre i costi computazionali derivanti da sequenze massive di token visivi.
- Preserva una rappresentazione ad alta fedeltà dell'input visivo.
- L'approccio esplora i soggetti salienti e le loro relazioni contestuali.
- L'articolo è disponibile su arXiv con ID 2605.20950.
Entità
—