ARTFEED — Contemporary Art Intelligence

AdaMerge: Fusione di Token Sensibile alla Salienza per ViT più Veloci

ai-technology · 2026-05-28

Un nuovo metodo chiamato AdaMerge accelera i Vision Transformers (ViT) fondendo adattivamente i token in base alla salienza, affrontando il costo quadratico dell'auto-attenzione. La fusione di token esistente (ToMe) presuppone che tutti i token siano ugualmente importanti, ma l'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza sotto compressione aggressiva. AdaMerge introduce due meccanismi: similarità ponderata per salienza, che utilizza l'affinità delle caratteristiche colonna-saggio come proxy dell'importanza del token e incorpora i punteggi di salienza nell'abbinamento bipartito, garantendo che i token cruciali contribuiscano di più; e intensità di fusione adattiva, che utilizza statistiche pre-calcolate a livello di strato per regolare i tassi di fusione. Il framework non richiede addestramento ed è progettato per l'implementazione pratica. L'articolo è disponibile su arXiv con ID 2605.27465.

Fatti principali

  • AdaMerge è un framework di fusione di token per Vision Transformers.
  • Affronta il costo quadratico dell'auto-attenzione.
  • La fusione di token esistente (ToMe) presuppone l'uguaglianza dei token.
  • L'auto-attenzione non è uniforme, causando perdita di informazioni nei token ad alta salienza.
  • La similarità ponderata per salienza utilizza l'affinità delle caratteristiche colonna-saggio come proxy di importanza.
  • L'intensità di fusione adattiva utilizza statistiche pre-calcolate a livello di strato.
  • AdaMerge non richiede addestramento.
  • ID articolo: arXiv:2605.27465.

Entità

Istituzioni

  • arXiv

Fonti