S2O: Arresto Anticipato per Attenzione Sparsa tramite Permutazione Online
Un nuovo approccio chiamato S2O (arresto anticipato per attenzione sparsa tramite permutazione online) è stato sviluppato per affrontare i problemi di scalabilità quadratica dell'attenzione legati alla lunghezza della sequenza durante l'inferenza su contesti lunghi. Le attuali tecniche di sparsificazione a granularità di blocco riducono la latenza ma sono limitate da un intrinseco tetto di sparsità a causa della loro struttura a blocchi grossolani. Ispirandosi alla mappatura degli indirizzi virtuali-fisici nei sistemi di memoria, S2O riesamina e fattorizza l'esecuzione di FlashAttention. Ciò consente all'inferenza di caricare token non contigui invece di una sequenza continua. Il metodo sposta la permutazione esplicita in una strategia di caricamento discreto online guidato da indici, concentrandosi su pochi blocchi ad alta priorità con un overhead minimo di preelaborazione e rimappatura degli indici. L'approccio è guidato da pattern a grana fine nelle mappe di calore dell'attenzione. La ricerca è disponibile su arXiv con identificativo 2602.22575.
Fatti principali
- S2O sta per arresto anticipato per attenzione sparsa tramite permutazione online.
- L'attenzione scala quadraticamente con la lunghezza della sequenza, limitando l'inferenza su contesti lunghi.
- L'attuale sparsificazione a granularità di blocco ha un intrinseco tetto di sparsità.
- S2O è ispirato alla mappatura degli indirizzi virtuali-fisici nei sistemi di memoria.
- S2O fattorizza l'esecuzione di FlashAttention.
- S2O carica token non contigui invece di un intervallo contiguo.
- Il metodo utilizza una politica di caricamento discreto online guidato da indici.
- L'articolo è su arXiv con ID 2602.22575.
Entità
Istituzioni
- arXiv