Fluxion: Attenzione Sparse Ibrida per Inferenza a Contesto Lungo su Sistemi CPU-GPU
Fluxion è un framework all'avanguardia volto a migliorare l'inferenza a contesto lungo combinando attenzione sparsa ibrida con elaborazione simultanea su CPU e GPU. Affronta le limitazioni degli stati KV durante la decodifica che superano la capacità di memoria della GPU, insieme alle difficoltà dei sistemi prefill-decode che si affidano alla memoria host per i dati KV. Aspetti notevoli di Fluxion includono il budget KV consapevole dell'output, configurazioni sparse su misura per teste specifiche e operazioni sincronizzate tra dispositivi. Il framework presenta anche un predittore leggero delle proprietà delle teste, un selettore per budget di granularità e uno scheduler che prioritizza i compiti per migliorare le prestazioni. Per maggiori informazioni, consultare il preprint arXiv 2605.07719.
Fatti principali
- 1. Fluxion è mirato all'inferenza a contesto lungo con cache KV residenti in CPU.
- 2. Utilizza un budget KV consapevole dell'output.
- 3. Impiega una configurazione sparsa specifica per testa e consapevole della granularità.
- 4. Consente l'esecuzione coordinata tra dispositivi.
- 5. I componenti includono un predittore delle proprietà delle teste, un selettore di budget di granularità e uno scheduler basato su priorità.
- 6. L'articolo è disponibile su arXiv con ID 2605.07719.
- 7. Affronta i colli di bottiglia della larghezza di banda PCIe e del tempo di inattività della GPU.
- 8. Il sistema è progettato per sistemi prefill-decode disaggregati.
Entità
Istituzioni
- arXiv