Trasformatori a Patch Adattivi Accelerano i Modelli Visivi

ai-technology · 2026-04-25

I ricercatori propongono i Trasformatori a Patch Adattivi (APT) per accelerare i Vision Transformers (ViT) utilizzando più dimensioni di patch all'interno di una singola immagine. APT assegna patch più grandi alle aree omogenee e patch più piccole alle regioni complesse, riducendo il numero totale di token in input. Questo metodo aumenta del 40% il throughput su ViT-L e del 50% su ViT-H, mantenendo le prestazioni. Può essere applicato a ViT già ottimizzati, convergendo in appena un'epoca. APT accelera anche compiti visivi densi ad alta risoluzione come il question answering visivo, il rilevamento di oggetti e la segmentazione semantica fino al 30%.

Fatti principali

APT utilizza più dimensioni di patch all'interno della stessa immagine.
Patch più grandi sono assegnate ad aree omogenee, patch più piccole a quelle complesse.
APT aumenta il throughput del 40% su ViT-L e del 50% su ViT-H.
Può essere applicato a ViT già ottimizzati, convergendo in un'epoca.
Riduce il tempo di addestramento e inferenza fino al 30% in compiti visivi densi.
I compiti includono question answering visivo, rilevamento di oggetti e segmentazione semantica.
APT affronta il problema delle patch di dimensioni uniformi nei ViT.
Il metodo mantiene le prestazioni a valle.

Entità

—

Fonti

arXiv cs.AI — 2026-04-25