AdaMerge: Fusione di Token Sensibile alla Salienza per ViT più Veloci
Un nuovo metodo chiamato AdaMerge accelera i Vision Transformers (ViT) fondendo adattivamente i token in base alla salienza, affrontando il costo quadratico dell'auto-attenzione. La fusione di token esistente (ToMe) presuppone che tutti i token siano ugualmente importanti, ma l'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza sotto compressione aggressiva. AdaMerge introduce due meccanismi: similarità ponderata per salienza, che utilizza l'affinità delle caratteristiche colonna-saggio come proxy dell'importanza del token e incorpora i punteggi di salienza nell'abbinamento bipartito, garantendo che i token cruciali contribuiscano di più; e intensità di fusione adattiva, che utilizza statistiche pre-calcolate a livello di strato per regolare i tassi di fusione. Il framework non richiede addestramento ed è progettato per l'implementazione pratica. L'articolo è disponibile su arXiv con ID 2605.27465.
Fatti principali
- AdaMerge è un framework di fusione di token per Vision Transformers.
- Affronta il costo quadratico dell'auto-attenzione.
- La fusione di token esistente (ToMe) presuppone l'uguaglianza dei token.
- L'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza.
- La similarità ponderata per salienza utilizza l'affinità delle caratteristiche colonna-saggio come proxy di importanza.
- L'intensità di fusione adattiva utilizza statistiche pre-calcolate a livello di strato.
- AdaMerge non richiede addestramento.
- ID articolo: arXiv:2605.27465.
Entità
Istituzioni
- arXiv