ARTFEED — Contemporary Art Intelligence

ObjectCache: Cache KV in Storage a Oggetti Compatibile con S3 per LLM

other · 2026-05-25

Il sistema ObjectCache, recentemente introdotto e descritto in arXiv:2605.22850, utilizza storage a oggetti compatibile con S3 per le cache KV dei modelli linguistici di grandi dimensioni (LLM) invece dei costosi pool di DRAM remoti. Questa strategia innovativa mira a ridurre sia le dimensioni che i costi dei cluster di servizio, mantenendo al minimo l'impatto sul tempo al primo token (TTFT). Integra la progettazione del protocollo di storage e della pianificazione del trasferimento, garantendo che i dati della cache KV vengano forniti nell'ordine richiesto dalla GPU, facilitando il trasferimento simultaneo dei dati e il calcolo su più richieste. È stato sviluppato un prototipo su un cluster RoCE da 100 Gbps utilizzando NIXL, una libreria di inferenza che semplifica la gestione dello storage e della memoria. L'articolo presenta un'alternativa valida alle tecniche esistenti di caching KV dei prefissi che dipendono dalla DRAM remota a causa delle limitazioni della GPU e della DRAM locale.

Fatti principali

  • ObjectCache memorizza la cache KV in storage a oggetti compatibile con S3
  • Mira a ridurre le dimensioni e i costi del cluster di servizio
  • Minimizza l'impatto sul tempo al primo token (TTFT)
  • Co-progetta il protocollo di storage e la pianificazione del trasferimento
  • Fornisce i dati della cache KV nell'ordine di consumo della GPU
  • Sovrappone il trasferimento dati con il calcolo su richieste concorrenti
  • Prototipo costruito su cluster RoCE da 100 Gbps con NIXL
  • Articolo pubblicato su arXiv con ID 2605.22850

Entità

Istituzioni

  • arXiv

Fonti