L'attenzione a blocchi sparsi permutati riduce il calcolo nei LLM
I ricercatori propongono l'attenzione a blocchi sparsi permutati, un metodo per ottimizzare l'auto-attenzione nei grandi modelli linguistici riordinando l'ordine dei token. L'approccio affronta il collo di bottiglia della complessità O(N²) migliorando la sparsità a livello di blocco, riducendo la memoria e la latenza per sequenze lunghe.
Fatti principali
- 1. L'auto-attenzione ha complessità O(N²) rispetto alla lunghezza della sequenza.
- 2. L'attenzione a blocchi sparsi partiziona le sequenze in blocchi e salta il calcolo per alcuni blocchi.
- 3. I token chiave importanti per le query all'interno di un singolo blocco possono essere sparsi su molti blocchi.
- 4. L'attenzione a blocchi sparsi permutati riordina i token per migliorare la sparsità.
- 5. Il metodo mira a ridurre la ridondanza computazionale nei meccanismi di attenzione.
- 6. La tecnica è progettata per grandi modelli linguistici con lunghi contesti.
- 7. Il lavoro è pubblicato su arXiv con ID 2510.21270.
- 8. Il tipo di annuncio è replace-cross.
Entità
Istituzioni
- arXiv