DUAL-BLADE: Offloading della KV-Cache NVMe-Direct per Inferenza LLM su Dispositivi Edge

ai-technology · 2026-04-30

DUAL-BLADE è un'architettura a doppio percorso per la residenza di KV progettata per l'inferenza LLM su dispositivi edge, che alloca intelligentemente i tensori KV a un percorso di cache di pagina o a un percorso NVMe-direct, a seconda della memoria disponibile durante l'esecuzione. Il percorso NVMe-direct elimina la necessità di un filesystem associando i tensori KV a regioni di indirizzi di blocco logici contigui, facilitando l'accesso a basso overhead allo storage. Inoltre, presenta un parallelismo pipeline adattivo per sincronizzare l'I/O di storage con la DMA della GPU, migliorando così il throughput di inferenza. Questo sistema affronta il problema delle cache KV che superano la memoria del dispositivo nelle applicazioni AI edge, dove l'offloading NVMe basato su file tradizionale incontra problemi come il cache thrashing e un significativo overhead software. La ricerca è disponibile su arXiv con ID 2604.26557.

Fatti principali

DUAL-BLADE è un framework a doppio percorso per la residenza di KV per l'inferenza LLM su dispositivi edge.
Assegna dinamicamente i tensori KV a un percorso di cache di pagina o a un percorso NVMe-direct.
Il percorso NVMe-direct mappa i tensori KV a regioni di indirizzi di blocco logici contigui.
Evita il filesystem per un accesso diretto allo storage a basso overhead.
Il parallelismo pipeline adattivo sovrappone l'I/O di storage con la DMA della GPU.
Il sistema è mirato a sistemi AI edge con budget di memoria limitati.
I progetti basati su file esistenti si affidano alla cache di pagina del kernel, causando cache thrashing.
Il paper è arXiv:2604.26557.

DUAL-BLADE: Offloading della KV-Cache NVMe-Direct per Inferenza LLM su Dispositivi Edge

Fatti principali

Entità

Istituzioni

Fonti