L'attenzione a blocchi sparsi permutati riduce il calcolo nei LLM

ai-technology · 2026-05-25

I ricercatori propongono l'attenzione a blocchi sparsi permutati, un metodo per ottimizzare l'auto-attenzione nei grandi modelli linguistici riordinando l'ordine dei token. L'approccio affronta il collo di bottiglia della complessità O(N²) migliorando la sparsità a livello di blocco, riducendo la memoria e la latenza per sequenze lunghe.

Fatti principali

1. L'auto-attenzione ha complessità O(N²) rispetto alla lunghezza della sequenza.
2. L'attenzione a blocchi sparsi partiziona le sequenze in blocchi e salta il calcolo per alcuni blocchi.
3. I token chiave importanti per le query all'interno di un singolo blocco possono essere sparsi su molti blocchi.
4. L'attenzione a blocchi sparsi permutati riordina i token per migliorare la sparsità.
5. Il metodo mira a ridurre la ridondanza computazionale nei meccanismi di attenzione.
6. La tecnica è progettata per grandi modelli linguistici con lunghi contesti.
7. Il lavoro è pubblicato su arXiv con ID 2510.21270.
8. Il tipo di annuncio è replace-cross.

L'attenzione a blocchi sparsi permutati riduce il calcolo nei LLM

Fatti principali

Entità

Istituzioni

Fonti