ARTFEED — Contemporary Art Intelligence

SPpruner: Riduzione dei Token Visivi Centrata sul Soggetto per VLM

other · 2026-05-22

Un nuovo metodo chiamato SPpruner riduce i costi computazionali nei modelli linguistico-visivi (VLM) potando progressivamente i token visivi. Imita il meccanismo di percezione visiva umana 'focus-poi-contesto'. Un modulo di identificazione del focus modella la salienza visiva e la rilevanza semantica per preservare una rappresentazione fedele del soggetto. Un modulo di scansione strutturale sensibile al contesto aggrega quindi gli indizi contestuali. L'approccio mira a mantenere i soggetti salienti e le loro relazioni riducendo il numero di token, affrontando il collo di bottiglia delle sequenze massive di token visivi durante l'inferenza.

Fatti principali

  • SPpruner è un paradigma di riduzione progressiva centrata sul soggetto per VLM.
  • Emula il meccanismo Focus-then-Context della percezione visiva umana.
  • Un modulo di identificazione del focus modella l'interazione tra salienza visiva e rilevanza semantica.
  • Un modulo di scansione strutturale sensibile al contesto aggrega gli indizi contestuali.
  • Il metodo mira a ridurre i costi computazionali derivanti da sequenze massive di token visivi.
  • Preserva una rappresentazione ad alta fedeltà dell'input visivo.
  • L'approccio esplora i soggetti salienti e le loro relazioni contestuali.
  • L'articolo è disponibile su arXiv con ID 2605.20950.

Entità

Fonti