L'Attenzione Selettiva dei Token Riduce il Calcolo dei Transformer del 20%
Un nuovo approccio chiamato Attenzione Selettiva dei Token (TSA) è stato introdotto dai ricercatori, consentendo ai modelli transformer di bypassare selettivamente i calcoli per i token più semplici. Questa tecnica incorpora un gate MLP a due strati per ogni token tra i blocchi transformer, risultando in una probabilità di arresto continua con un aumento dei parametri di solo l'1,7%. È importante notare che TSA è completamente differenziabile e non richiede modifiche all'architettura sottostante. Sorprendentemente, TSA salta autonomamente il 20% delle operazioni token-layer senza alcuna regolarizzazione esplicita della profondità (λ=0), basandosi esclusivamente sul gradiente della funzione di perdita del compito. Nei test di modellazione del linguaggio a livello di carattere, TSA ha ridotto le operazioni token-layer (TLOps) del 14-23% su Tiny-Shakespeare e enwik8, mantenendo una perdita di qualità inferiore allo 0,5%. Confrontando le efficienze, TSA ha registrato una perdita di validazione inferiore dello 0,7% rispetto alle tecniche di early exit. Questa ricerca è disponibile su arXiv (2605.05222).
Fatti principali
- 1. TSA aggiunge un gate appreso per token sugli aggiornamenti residui tra i blocchi transformer.
- 2. Il gate è un MLP a due strati che produce una probabilità di arresto continua.
- 3. L'overhead dei parametri è solo dell'1,7%.
- 4. Non sono richieste modifiche all'architettura di base.
- 5. Con λ=0, TSA salta il 20% delle operazioni token-layer.
- 6. Su Tiny-Shakespeare e enwik8, TSA risparmia il 14-23% di TLOps con una perdita di qualità inferiore allo 0,5%.
- 7. A parità di efficienza, TSA raggiunge una perdita di validazione inferiore dello 0,7% rispetto all'early exit.
- 8. Articolo disponibile su arXiv: 2605.05222.
Entità
Istituzioni
- arXiv