ObjectCache: Cache KV in Storage a Oggetti Compatibile con S3 per LLM
Il sistema ObjectCache, recentemente introdotto e descritto in arXiv:2605.22850, utilizza storage a oggetti compatibile con S3 per le cache KV dei modelli linguistici di grandi dimensioni (LLM) invece dei costosi pool di DRAM remoti. Questa strategia innovativa mira a ridurre sia le dimensioni che i costi dei cluster di servizio, mantenendo al minimo l'impatto sul tempo al primo token (TTFT). Integra la progettazione del protocollo di storage e della pianificazione del trasferimento, garantendo che i dati della cache KV vengano forniti nell'ordine richiesto dalla GPU, facilitando il trasferimento simultaneo dei dati e il calcolo su più richieste. È stato sviluppato un prototipo su un cluster RoCE da 100 Gbps utilizzando NIXL, una libreria di inferenza che semplifica la gestione dello storage e della memoria. L'articolo presenta un'alternativa valida alle tecniche esistenti di caching KV dei prefissi che dipendono dalla DRAM remota a causa delle limitazioni della GPU e della DRAM locale.
Fatti principali
- ObjectCache memorizza la cache KV in storage a oggetti compatibile con S3
- Mira a ridurre le dimensioni e i costi del cluster di servizio
- Minimizza l'impatto sul tempo al primo token (TTFT)
- Co-progetta il protocollo di storage e la pianificazione del trasferimento
- Fornisce i dati della cache KV nell'ordine di consumo della GPU
- Sovrappone il trasferimento dati con il calcolo su richieste concorrenti
- Prototipo costruito su cluster RoCE da 100 Gbps con NIXL
- Articolo pubblicato su arXiv con ID 2605.22850
Entità
Istituzioni
- arXiv