MTServe: Sistema di Cache Gerarchico per Raccomandazione Generativa
MTServe è un sistema di gestione della cache gerarchico progettato per ridurre i costi di inferenza nei modelli di raccomandazione generativa. Virtualizza la memoria GPU utilizzando la RAM host come storage di backup, affrontando l'esplosione dello storage dovuta a lunghe cronologie utente. Il sistema introduce un layout di storage ibrido, una pipeline di trasferimento dati asincrona e una politica di sostituzione basata sulla località. Su dataset pubblici e di produzione, MTServe raggiunge un'accelerazione fino a 3,1x con tassi di hit superiori al 98,5%.
Fatti principali
- 1. La raccomandazione generativa soffre di alti costi di inferenza a causa della codifica ripetuta di lunghe cronologie utente.
- 2. Il riutilizzo della cache KV tra richieste è un'ottimizzazione chiave ma causa un'esplosione dello storage oltre i limiti della GPU.
- 3. MTServe virtualizza la memoria GPU utilizzando la RAM host come storage di backup scalabile.
- 4. Le ottimizzazioni includono layout di storage ibrido, trasferimento dati asincrono e sostituzione basata sulla località.
- 5. MTServe offre un'accelerazione fino a 3,1x su dataset pubblici e di produzione.
- 6. I tassi di hit superano il 98,5%.
- 7. Il sistema è proposto in un articolo su arXiv (2604.22881).
- 8. L'articolo è categorizzato in Computer Science > Machine Learning.
Entità
Istituzioni
- arXiv