ARTFEED — Contemporary Art Intelligence

L'attenzione a blocchi sparsi permutati riduce il calcolo nei LLM

ai-technology · 2026-05-25

I ricercatori propongono l'attenzione a blocchi sparsi permutati, un metodo per ottimizzare l'auto-attenzione nei grandi modelli linguistici riordinando l'ordine dei token. L'approccio affronta il collo di bottiglia della complessità O(N²) migliorando la sparsità a livello di blocco, riducendo la memoria e la latenza per sequenze lunghe.

Fatti principali

  • 1. L'auto-attenzione ha complessità O(N²) rispetto alla lunghezza della sequenza.
  • 2. L'attenzione a blocchi sparsi partiziona le sequenze in blocchi e salta il calcolo per alcuni blocchi.
  • 3. I token chiave importanti per le query all'interno di un singolo blocco possono essere sparsi su molti blocchi.
  • 4. L'attenzione a blocchi sparsi permutati riordina i token per migliorare la sparsità.
  • 5. Il metodo mira a ridurre la ridondanza computazionale nei meccanismi di attenzione.
  • 6. La tecnica è progettata per grandi modelli linguistici con lunghi contesti.
  • 7. Il lavoro è pubblicato su arXiv con ID 2510.21270.
  • 8. Il tipo di annuncio è replace-cross.

Entità

Istituzioni

  • arXiv

Fonti