ARTFEED — Contemporary Art Intelligence

Trasformatori a Patch Adattivi Accelerano i Modelli Visivi

ai-technology · 2026-04-25

I ricercatori propongono i Trasformatori a Patch Adattivi (APT) per accelerare i Vision Transformers (ViT) utilizzando più dimensioni di patch all'interno di una singola immagine. APT assegna patch più grandi alle aree omogenee e patch più piccole alle regioni complesse, riducendo il numero totale di token in input. Questo metodo aumenta del 40% il throughput su ViT-L e del 50% su ViT-H, mantenendo le prestazioni. Può essere applicato a ViT già ottimizzati, convergendo in appena un'epoca. APT accelera anche compiti visivi densi ad alta risoluzione come il question answering visivo, il rilevamento di oggetti e la segmentazione semantica fino al 30%.

Fatti principali

  • APT utilizza più dimensioni di patch all'interno della stessa immagine.
  • Patch più grandi sono assegnate ad aree omogenee, patch più piccole a quelle complesse.
  • APT aumenta il throughput del 40% su ViT-L e del 50% su ViT-H.
  • Può essere applicato a ViT già ottimizzati, convergendo in un'epoca.
  • Riduce il tempo di addestramento e inferenza fino al 30% in compiti visivi densi.
  • I compiti includono question answering visivo, rilevamento di oggetti e segmentazione semantica.
  • APT affronta il problema delle patch di dimensioni uniformi nei ViT.
  • Il metodo mantiene le prestazioni a valle.

Entità

Fonti