MTServe: Sistema di Cache Gerarchico per Raccomandazione Generativa

other · 2026-04-29

MTServe è un sistema di gestione della cache gerarchico progettato per ridurre i costi di inferenza nei modelli di raccomandazione generativa. Virtualizza la memoria GPU utilizzando la RAM host come storage di backup, affrontando l'esplosione dello storage dovuta a lunghe cronologie utente. Il sistema introduce un layout di storage ibrido, una pipeline di trasferimento dati asincrona e una politica di sostituzione basata sulla località. Su dataset pubblici e di produzione, MTServe raggiunge un'accelerazione fino a 3,1x con tassi di hit superiori al 98,5%.

Fatti principali

1. La raccomandazione generativa soffre di alti costi di inferenza a causa della codifica ripetuta di lunghe cronologie utente.
2. Il riutilizzo della cache KV tra richieste è un'ottimizzazione chiave ma causa un'esplosione dello storage oltre i limiti della GPU.
3. MTServe virtualizza la memoria GPU utilizzando la RAM host come storage di backup scalabile.
4. Le ottimizzazioni includono layout di storage ibrido, trasferimento dati asincrono e sostituzione basata sulla località.
5. MTServe offre un'accelerazione fino a 3,1x su dataset pubblici e di produzione.
6. I tassi di hit superano il 98,5%.
7. Il sistema è proposto in un articolo su arXiv (2604.22881).
8. L'articolo è categorizzato in Computer Science > Machine Learning.

MTServe: Sistema di Cache Gerarchico per Raccomandazione Generativa

Fatti principali

Entità

Istituzioni

Fonti