Coral: Servizio Multi-LLM Efficiente su GPU Cloud Eterogenee

ai-technology · 2026-05-07

Coral è un sistema di servizio multi-LLM adattivo e consapevole dell'eterogeneità, progettato per sfruttare in modo efficiente diverse GPU cloud per il servizio concorrente di modelli. Ottimizza congiuntamente l'allocazione delle risorse e le strategie di servizio su più modelli, utilizzando una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi. Valutato su 6 modelli e 20 configurazioni GPU, Coral raggiunge una riduzione dei costi fino a 2,79× rispetto al miglior baseline.

Fatti principali

Coral è un sistema di servizio multi-LLM per GPU cloud eterogenee.
Ottimizza congiuntamente l'allocazione delle risorse e la strategia di servizio su tutti i modelli.
Utilizza una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi.
Valutato su 6 modelli e 20 configurazioni GPU.
Riduce il costo del servizio fino a 2,79× rispetto al miglior baseline.
Affronta l'uso frammentato degli LLM e la diversa disponibilità di GPU cloud.
Si rivolge a GPU di fascia media e di generazione precedente con migliore disponibilità.
Preserva l'ottimalità congiunta riducendo il carico computazionale.

Entità

—

Fonti

arXiv cs.AI — 2026-05-07