Trasformatori a Patch Adattivi Accelerano i Modelli Visivi
I ricercatori propongono i Trasformatori a Patch Adattivi (APT) per accelerare i Vision Transformers (ViT) utilizzando più dimensioni di patch all'interno di una singola immagine. APT assegna patch più grandi alle aree omogenee e patch più piccole alle regioni complesse, riducendo il numero totale di token in input. Questo metodo aumenta del 40% il throughput su ViT-L e del 50% su ViT-H, mantenendo le prestazioni. Può essere applicato a ViT già ottimizzati, convergendo in appena un'epoca. APT accelera anche compiti visivi densi ad alta risoluzione come il question answering visivo, il rilevamento di oggetti e la segmentazione semantica fino al 30%.
Fatti principali
- APT utilizza più dimensioni di patch all'interno della stessa immagine.
- Patch più grandi sono assegnate ad aree omogenee, patch più piccole a quelle complesse.
- APT aumenta il throughput del 40% su ViT-L e del 50% su ViT-H.
- Può essere applicato a ViT già ottimizzati, convergendo in un'epoca.
- Riduce il tempo di addestramento e inferenza fino al 30% in compiti visivi densi.
- I compiti includono question answering visivo, rilevamento di oggetti e segmentazione semantica.
- APT affronta il problema delle patch di dimensioni uniformi nei ViT.
- Il metodo mantiene le prestazioni a valle.
Entità
—