GhostServe: Servizio LLM Tollerante ai Guasti tramite Checkpoint Ombra

ai-technology · 2026-05-06

GhostServe è un innovativo sistema di checkpoint progettato per proteggere la cache chiave-valore (KV) nei servizi di inferenza dei grandi modelli linguistici (LLM) da guasti hardware e software. Con la crescente diffusione di applicazioni basate su agenti e milioni di token, la natura a lunga esecuzione di questi compiti aumenta la vulnerabilità ai fallimenti, causando costose interruzioni e spreco di risorse. GhostServe affronta questo problema applicando la codifica a cancellazione per generare shard di parità memorizzati nella memoria host, consentendo una rapida ricostruzione della cache KV persa senza dover ricalcolare completamente. Il sistema opera nell'ombra, ovvero in modo trasparente rispetto al processo di inferenza principale. Questo approccio garantisce la ripresa senza soluzione di continuità dell'inferenza dopo guasti ai dispositivi, migliorando significativamente la tolleranza ai guasti per il servizio LLM distribuito. Il lavoro è presentato nel preprint arXiv 2605.00831.

Fatti principali

1. GhostServe utilizza la codifica a cancellazione per proteggere la cache KV.
2. Gli shard di parità sono memorizzati nella memoria host.
3. Consente una rapida ricostruzione della cache KV persa dopo guasti ai dispositivi.
4. Elimina la necessità di costosi ricalcoli completi.
5. Progettato per applicazioni LLM basate su agenti e milioni di token.
6. Opera nell'ombra, in modo trasparente rispetto al processo principale.
7. Affronta guasti hardware e software nel servizio distribuito.
8. Pubblicato come arXiv:2605.00831.

GhostServe: Servizio LLM Tollerante ai Guasti tramite Checkpoint Ombra

Fatti principali

Entità

Istituzioni

Fonti