Coral: Servizio Multi-LLM Efficiente su GPU Cloud Eterogenee
Coral è un sistema di servizio multi-LLM adattivo e consapevole dell'eterogeneità, progettato per sfruttare in modo efficiente diverse GPU cloud per il servizio concorrente di modelli. Ottimizza congiuntamente l'allocazione delle risorse e le strategie di servizio su più modelli, utilizzando una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi. Valutato su 6 modelli e 20 configurazioni GPU, Coral raggiunge una riduzione dei costi fino a 2,79× rispetto al miglior baseline.
Fatti principali
- Coral è un sistema di servizio multi-LLM per GPU cloud eterogenee.
- Ottimizza congiuntamente l'allocazione delle risorse e la strategia di servizio su tutti i modelli.
- Utilizza una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi.
- Valutato su 6 modelli e 20 configurazioni GPU.
- Riduce il costo del servizio fino a 2,79× rispetto al miglior baseline.
- Affronta l'uso frammentato degli LLM e la diversa disponibilità di GPU cloud.
- Si rivolge a GPU di fascia media e di generazione precedente con migliore disponibilità.
- Preserva l'ottimalità congiunta riducendo il carico computazionale.
Entità
—