JetViT: Trasformatore Visivo Efficiente ad Alta Risoluzione con Ricerca dell'Attenzione Post-Addestramento

ai-technology · 2026-05-27

Un gruppo di ricercatori ha presentato JetViT, una serie di modelli Trasformatore Visivo (ViT) ad architettura ibrida che raggiungono la stessa accuratezza dei modelli di base per la visione full-attention leader, migliorando significativamente l'efficienza di inferenza per immagini ad alta risoluzione. La principale innovazione è la Ricerca dell'Attenzione Post-Addestramento, un framework di accelerazione che trasforma ViT full-attention pre-addestrati in modelli ibrido-attenzione efficienti, identificando e sostituendo i blocchi full-attention non necessari con alternative di attenzione lineare o a finestra. Questo framework mantiene i pesi MLP e di attenzione del modello originale e naviga lo spazio di progettazione attraverso tre fasi essenziali: ottimizzare la progettazione dei blocchi di attenzione lineare, determinare la miscela ottimale di blocchi di attenzione lineare e a finestra, e riconoscere e mantenere i blocchi full-attention vitali. JetViT mostra miglioramenti sostanziali nell'efficienza per compiti su immagini ad alta risoluzione senza compromettere l'accuratezza. La ricerca è disponibile su arXiv con ID 2605.26636.

Fatti principali

JetViT è una famiglia di modelli Trasformatore Visivo ad architettura ibrida.
Eguaglia l'accuratezza dei modelli di base per la visione full-attention all'avanguardia.
Raggiunge una maggiore efficienza di inferenza su immagini ad alta risoluzione.
L'approccio principale è la Ricerca dell'Attenzione Post-Addestramento.
La Ricerca dell'Attenzione Post-Addestramento converte ViT full-attention in varianti ibrido-attenzione.
Sostituisce i blocchi full-attention ridondanti con blocchi di attenzione lineare o a finestra.
Il framework eredita i pesi MLP e di attenzione dal modello base.
Tre fasi chiave: ottimizzare la progettazione dei blocchi di attenzione lineare, trovare la migliore combinazione di attenzione lineare e a finestra, identificare i blocchi full-attention critici.

JetViT: Trasformatore Visivo Efficiente ad Alta Risoluzione con Ricerca dell'Attenzione Post-Addestramento

Fatti principali

Entità

Istituzioni

Fonti