AdaMerge: Fusione di Token Sensibile alla Salienza per ViT più Veloci

ai-technology · 2026-05-28

Un nuovo metodo chiamato AdaMerge accelera i Vision Transformers (ViT) fondendo adattivamente i token in base alla salienza, affrontando il costo quadratico dell'auto-attenzione. La fusione di token esistente (ToMe) presuppone che tutti i token siano ugualmente importanti, ma l'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza sotto compressione aggressiva. AdaMerge introduce due meccanismi: similarità ponderata per salienza, che utilizza l'affinità delle caratteristiche colonna-saggio come proxy dell'importanza del token e incorpora i punteggi di salienza nell'abbinamento bipartito, garantendo che i token cruciali contribuiscano di più; e intensità di fusione adattiva, che utilizza statistiche pre-calcolate a livello di strato per regolare i tassi di fusione. Il framework non richiede addestramento ed è progettato per l'implementazione pratica. L'articolo è disponibile su arXiv con ID 2605.27465.

Fatti principali

AdaMerge è un framework di fusione di token per Vision Transformers.
Affronta il costo quadratico dell'auto-attenzione.
La fusione di token esistente (ToMe) presuppone l'uguaglianza dei token.
L'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza.
La similarità ponderata per salienza utilizza l'affinità delle caratteristiche colonna-saggio come proxy di importanza.
L'intensità di fusione adattiva utilizza statistiche pre-calcolate a livello di strato.
AdaMerge non richiede addestramento.
ID articolo: arXiv:2605.27465.

AdaMerge: Fusione di Token Sensibile alla Salienza per ViT più Veloci

Fatti principali

Entità

Istituzioni

Fonti