JetViT: Trasformatore Visivo Efficiente ad Alta Risoluzione con Ricerca dell'Attenzione Post-Addestramento
Un gruppo di ricercatori ha presentato JetViT, una serie di modelli Trasformatore Visivo (ViT) ad architettura ibrida che raggiungono la stessa accuratezza dei modelli di base per la visione full-attention leader, migliorando significativamente l'efficienza di inferenza per immagini ad alta risoluzione. La principale innovazione è la Ricerca dell'Attenzione Post-Addestramento, un framework di accelerazione che trasforma ViT full-attention pre-addestrati in modelli ibrido-attenzione efficienti, identificando e sostituendo i blocchi full-attention non necessari con alternative di attenzione lineare o a finestra. Questo framework mantiene i pesi MLP e di attenzione del modello originale e naviga lo spazio di progettazione attraverso tre fasi essenziali: ottimizzare la progettazione dei blocchi di attenzione lineare, determinare la miscela ottimale di blocchi di attenzione lineare e a finestra, e riconoscere e mantenere i blocchi full-attention vitali. JetViT mostra miglioramenti sostanziali nell'efficienza per compiti su immagini ad alta risoluzione senza compromettere l'accuratezza. La ricerca è disponibile su arXiv con ID 2605.26636.
Fatti principali
- JetViT è una famiglia di modelli Trasformatore Visivo ad architettura ibrida.
- Eguaglia l'accuratezza dei modelli di base per la visione full-attention all'avanguardia.
- Raggiunge una maggiore efficienza di inferenza su immagini ad alta risoluzione.
- L'approccio principale è la Ricerca dell'Attenzione Post-Addestramento.
- La Ricerca dell'Attenzione Post-Addestramento converte ViT full-attention in varianti ibrido-attenzione.
- Sostituisce i blocchi full-attention ridondanti con blocchi di attenzione lineare o a finestra.
- Il framework eredita i pesi MLP e di attenzione dal modello base.
- Tre fasi chiave: ottimizzare la progettazione dei blocchi di attenzione lineare, trovare la migliore combinazione di attenzione lineare e a finestra, identificare i blocchi full-attention critici.
Entità
Istituzioni
- arXiv