La distillazione dell'attenzione sparsa consente sostituzioni sequenziali più semplici nei transformer
Un nuovo articolo su arXiv (2605.18865) propone un metodo per sostituire i costosi strati di self-attention in modelli di vision transformer pre-addestrati con moduli sequenziali più semplici, utilizzando la distillazione dell'attenzione sparsa. Gli autori osservano che gli strati del transformer mostrano diversi pattern di sparsità, suggerendo che alcuni strati possono essere approssimati da mappature più semplici senza perdita di prestazioni. Introducono un framework di distillazione layer-wise plug-and-play che sostituisce selettivamente l'attenzione con moduli sequenziali in modo controllato e per gruppi. L'obiettivo è ridurre i costi di inferenza mantenendo la qualità del modello. L'articolo è una sottomissione incrociata e si concentra sul consentire architetture transformer più efficienti attraverso la sostituzione dell'attenzione.
Fatti principali
- L'articolo arXiv:2605.18865 propone la distillazione dell'attenzione sparsa per sostituire l'attenzione con moduli sequenziali.
- Il costo quadratico dell'interazione tra token nella self-attention rende l'inferenza costosa.
- La sostituzione ingenua dell'attenzione con moduli sequenziali è spesso dispendiosa su larga scala.
- Il metodo utilizza un framework di distillazione layer-wise plug-and-play.
- Si rivolge a modelli di vision transformer pre-addestrati.
- Le sostituzioni controllate per gruppi vengono eseguite con un budget di addestramento fisso.
- L'approccio sfrutta diversi pattern di sparsità tra gli strati del transformer.
- L'articolo è di tipo cross submission.
Entità
Istituzioni
- arXiv