ARTFEED — Contemporary Art Intelligence

Coral: Servizio Multi-LLM Efficiente su GPU Cloud Eterogenee

ai-technology · 2026-05-07

Coral è un sistema di servizio multi-LLM adattivo e consapevole dell'eterogeneità, progettato per sfruttare in modo efficiente diverse GPU cloud per il servizio concorrente di modelli. Ottimizza congiuntamente l'allocazione delle risorse e le strategie di servizio su più modelli, utilizzando una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi. Valutato su 6 modelli e 20 configurazioni GPU, Coral raggiunge una riduzione dei costi fino a 2,79× rispetto al miglior baseline.

Fatti principali

  • Coral è un sistema di servizio multi-LLM per GPU cloud eterogenee.
  • Ottimizza congiuntamente l'allocazione delle risorse e la strategia di servizio su tutti i modelli.
  • Utilizza una decomposizione in due fasi senza perdite per ridurre il tempo di risoluzione online da ore a decine di secondi.
  • Valutato su 6 modelli e 20 configurazioni GPU.
  • Riduce il costo del servizio fino a 2,79× rispetto al miglior baseline.
  • Affronta l'uso frammentato degli LLM e la diversa disponibilità di GPU cloud.
  • Si rivolge a GPU di fascia media e di generazione precedente con migliore disponibilità.
  • Preserva l'ottimalità congiunta riducendo il carico computazionale.

Entità

Fonti