ObjectCache: Cache KV in Storage a Oggetti Compatibile con S3 per LLM

other · 2026-05-25

Il sistema ObjectCache, recentemente introdotto e descritto in arXiv:2605.22850, utilizza storage a oggetti compatibile con S3 per le cache KV dei modelli linguistici di grandi dimensioni (LLM) invece dei costosi pool di DRAM remoti. Questa strategia innovativa mira a ridurre sia le dimensioni che i costi dei cluster di servizio, mantenendo al minimo l'impatto sul tempo al primo token (TTFT). Integra la progettazione del protocollo di storage e della pianificazione del trasferimento, garantendo che i dati della cache KV vengano forniti nell'ordine richiesto dalla GPU, facilitando il trasferimento simultaneo dei dati e il calcolo su più richieste. È stato sviluppato un prototipo su un cluster RoCE da 100 Gbps utilizzando NIXL, una libreria di inferenza che semplifica la gestione dello storage e della memoria. L'articolo presenta un'alternativa valida alle tecniche esistenti di caching KV dei prefissi che dipendono dalla DRAM remota a causa delle limitazioni della GPU e della DRAM locale.

Fatti principali

ObjectCache memorizza la cache KV in storage a oggetti compatibile con S3
Mira a ridurre le dimensioni e i costi del cluster di servizio
Minimizza l'impatto sul tempo al primo token (TTFT)
Co-progetta il protocollo di storage e la pianificazione del trasferimento
Fornisce i dati della cache KV nell'ordine di consumo della GPU
Sovrappone il trasferimento dati con il calcolo su richieste concorrenti
Prototipo costruito su cluster RoCE da 100 Gbps con NIXL
Articolo pubblicato su arXiv con ID 2605.22850

ObjectCache: Cache KV in Storage a Oggetti Compatibile con S3 per LLM

Fatti principali

Entità

Istituzioni

Fonti