ARTFEED — Contemporary Art Intelligence

Fluxion: Attenzione Sparse Ibrida per Inferenza a Contesto Lungo su Sistemi CPU-GPU

other · 2026-05-11

Fluxion è un framework all'avanguardia volto a migliorare l'inferenza a contesto lungo combinando attenzione sparsa ibrida con elaborazione simultanea su CPU e GPU. Affronta le limitazioni degli stati KV durante la decodifica che superano la capacità di memoria della GPU, insieme alle difficoltà dei sistemi prefill-decode che si affidano alla memoria host per i dati KV. Aspetti notevoli di Fluxion includono il budget KV consapevole dell'output, configurazioni sparse su misura per teste specifiche e operazioni sincronizzate tra dispositivi. Il framework presenta anche un predittore leggero delle proprietà delle teste, un selettore per budget di granularità e uno scheduler che prioritizza i compiti per migliorare le prestazioni. Per maggiori informazioni, consultare il preprint arXiv 2605.07719.

Fatti principali

  • 1. Fluxion è mirato all'inferenza a contesto lungo con cache KV residenti in CPU.
  • 2. Utilizza un budget KV consapevole dell'output.
  • 3. Impiega una configurazione sparsa specifica per testa e consapevole della granularità.
  • 4. Consente l'esecuzione coordinata tra dispositivi.
  • 5. I componenti includono un predittore delle proprietà delle teste, un selettore di budget di granularità e uno scheduler basato su priorità.
  • 6. L'articolo è disponibile su arXiv con ID 2605.07719.
  • 7. Affronta i colli di bottiglia della larghezza di banda PCIe e del tempo di inattività della GPU.
  • 8. Il sistema è progettato per sistemi prefill-decode disaggregati.

Entità

Istituzioni

  • arXiv

Fonti