MISA: Attenzione Sparsa Efficiente per LLM a Contesto Lungo

ai-technology · 2026-05-11

MISA (Mixture of Indexer Sparse Attention) è un nuovo metodo che migliora l'efficienza dell'attenzione sparsa nei modelli linguistici di grandi dimensioni per contesti lunghi. Sostituisce l'indicizzatore in DeepSeek Sparse Attention (DSA), che utilizza molte teste di query (ad esempio, 64 su DeepSeek-V3.2) che tutte valutano ogni token del prefisso, rendendolo costoso. MISA tratta queste teste dell'indicizzatore come un mixture-of-experts, utilizzando un router leggero con statistiche a livello di blocco a basso costo per selezionare solo poche teste attive per query. Solo quelle teste eseguono la pesante valutazione a livello di token, preservando la diversità e riducendo il costo per query. Il lavoro è pubblicato su arXiv come 2605.07363.

Fatti principali

1. MISA è un sostituto diretto per l'indicizzatore DSA.
2. DSA utilizza molte teste di query (ad esempio, 64 su DeepSeek-V3.2) che condividono lo stesso insieme di token selezionati.
3. Il design multi-testa rende l'indicizzatore il costo dominante su contesti lunghi.
4. MISA tratta le teste dell'indicizzatore come un mixture-of-experts.
5. Un router leggero utilizza statistiche a livello di blocco a basso costo per selezionare un sottoinsieme di teste attive dipendente dalla query.
6. Solo le teste selezionate eseguono la pesante valutazione a livello di token.
7. MISA riduce il costo per query rispetto alla valutazione di ogni token del prefisso con ogni testa.
8. L'articolo è su arXiv con ID 2605.07363.

MISA: Attenzione Sparsa Efficiente per LLM a Contesto Lungo

Fatti principali

Entità

Istituzioni

Fonti