La selezione a cascata dei token accelera l'attenzione nei transformer
Un nuovo metodo chiamato Cascade Token Selection riduce il costo computazionale della selezione dei token rappresentativi nei layer di attenzione dei transformer. L'approccio, descritto in un articolo su arXiv (2605.03110), si basa su Activation Decorrelation Attention (ADA), che seleziona r token rappresentativi per layer utilizzando una soglia Gram ma richiede una costosa matrice Gram T×T per ogni layer. Il meccanismo a cascata eredita l'insieme rappresentativo dal layer l al layer l+1, lo convalida tramite un calcolo cross-Gram (T−r)×r e lo aggiorna con aggiunte e rimozioni minime. Ciò riduce il costo di selezione da O(T²d) a O(Trd) per layer. I test sui modelli GPT-2 124M, GPT-J 6B e OPT 6.7B utilizzando hardware AMD MI300X hanno mostrato risparmi nelle operazioni Gram dal 22% al 63%, con una sovrapposizione media di Jaccard tra layer consecutivi compresa tra 0.83 e 0.94.
Fatti principali
- Cascade Token Selection riduce il costo di selezione dei token rappresentativi nei layer di attenzione dei transformer.
- Il metodo sfrutta la coerenza dell'insieme rappresentativo attraverso la profondità.
- Si basa su Activation Decorrelation Attention (ADA) che seleziona r token rappresentativi per layer tramite una soglia Gram.
- ADA richiede una matrice Gram T×T per ogni layer.
- La cascata eredita l'insieme rappresentativo dal layer l al layer l+1.
- Convalida l'insieme tramite un calcolo cross-Gram (T−r)×r.
- Aggiorna l'insieme con un piccolo numero di aggiunte e rimozioni.
- Il costo di selezione scende da O(T²d) a O(Trd) per layer.
- Testato sui modelli GPT-2 124M, GPT-J 6B, OPT 6.7B.
- Hardware utilizzato: AMD MI300X.
- Risparmi nelle operazioni Gram: dal 22% al 63%.
- Sovrapposizione media di Jaccard tra layer consecutivi: da 0.83 a 0.94.
Entità
Istituzioni
- arXiv