SANTA: Attenzione Sparsa Stocastica Accelera l'Inferenza dei LLM
I ricercatori propongono Stochastic Additive No-mulT Attention (SANTA), un metodo per accelerare la decodifica autoregressiva memory-bound nei grandi modelli linguistici. Campionando S indici dalla distribuzione post-softmax e aggregando solo quelle righe di valori, SANTA sostituisce i moltiplica-accumula con gather-and-add, producendo uno stimatore non distorto. Il campionamento stratificato produce varianti a varianza ridotta e ottimizzate per GPU. Su una NVIDIA RTX 6000 Ada, SANTA raggiunge un'accelerazione del kernel di attenzione del passo di decodifica di 1,5× rispetto a FlashInfer e FlashDecoding con contesti di 32k token, mantenendo l'accuratezza di base. Viene introdotto anche il campionamento Bernoulli qKᵀ come tecnica complementare per sparsificare la fase di score tramite query ternarie stocastiche.
Fatti principali
- SANTA sparsifica l'accesso alla cache dei valori campionando S << n_k indici dalla distribuzione post-softmax.
- Il metodo sostituisce i moltiplica-accumula della fase dei valori con gather-and-add.
- Il campionamento stratificato produce varianti a varianza ridotta e ottimizzate per GPU.
- Accelerazione di 1,5× del kernel di attenzione del passo di decodifica rispetto a FlashInfer e FlashDecoding su NVIDIA RTX 6000 Ada.
- Mantiene l'accuratezza di base con contesti di 32k token.
- Il campionamento Bernoulli qKᵀ sparsifica la fase di score.
- L'articolo appare su arXiv come 2605.01910.
- Focus sull'inferenza memory-bound per contesti lunghi.
Entità
Istituzioni
- arXiv