ARTFEED — Contemporary Art Intelligence

MTServe: Sistema di Cache Gerarchico per Raccomandazione Generativa

other · 2026-04-29

MTServe è un sistema di gestione della cache gerarchico progettato per ridurre i costi di inferenza nei modelli di raccomandazione generativa. Virtualizza la memoria GPU utilizzando la RAM host come storage di backup, affrontando l'esplosione dello storage dovuta a lunghe cronologie utente. Il sistema introduce un layout di storage ibrido, una pipeline di trasferimento dati asincrona e una politica di sostituzione basata sulla località. Su dataset pubblici e di produzione, MTServe raggiunge un'accelerazione fino a 3,1x con tassi di hit superiori al 98,5%.

Fatti principali

  • 1. La raccomandazione generativa soffre di alti costi di inferenza a causa della codifica ripetuta di lunghe cronologie utente.
  • 2. Il riutilizzo della cache KV tra richieste è un'ottimizzazione chiave ma causa un'esplosione dello storage oltre i limiti della GPU.
  • 3. MTServe virtualizza la memoria GPU utilizzando la RAM host come storage di backup scalabile.
  • 4. Le ottimizzazioni includono layout di storage ibrido, trasferimento dati asincrono e sostituzione basata sulla località.
  • 5. MTServe offre un'accelerazione fino a 3,1x su dataset pubblici e di produzione.
  • 6. I tassi di hit superano il 98,5%.
  • 7. Il sistema è proposto in un articolo su arXiv (2604.22881).
  • 8. L'articolo è categorizzato in Computer Science > Machine Learning.

Entità

Istituzioni

  • arXiv

Fonti