HFX System ottimizza il servizio LLM con supporto multi-SLO e scaling rapido

ai-technology · 2026-04-27

Il sistema di produzione HFX è stato sviluppato per migliorare la pianificazione delle richieste e lo scaling elastico per il servizio di modelli linguistici di grandi dimensioni (LLM). Affronta efficacemente la sfida di soddisfare vari obiettivi di livello di servizio (SLO) mantenendo bassi i costi computazionali in ambienti dinamici e multi-task. HFX presenta uno scheduler che stima proattivamente i budget e prioritizza le richieste per mantenere la conformità agli SLO sia per i nuovi task che per quelli in corso. Inoltre, include uno scaler che facilita trasferimenti rapidi di pesi da dispositivo a dispositivo (D2D), riducendo così la latenza di cold-start. HFX supporta sia modelli di deployment collocati che disaggregati. Questo lavoro è dettagliato in un articolo su arXiv (2508.15919), che evidenzia le carenze degli attuali metodi di scheduling statico e delle strategie a singolo task.

Fatti principali

1. HFX ottimizza congiuntamente la pianificazione delle richieste e lo scaling elastico per il servizio LLM.
2. Affronta SLO rigorosi specifici per utente in carichi di lavoro dinamici e multi-task.
3. Lo scheduler esegue una stima proattiva del budget e una prioritizzazione.
4. Lo scaler supporta il trasferimento rapido di pesi D2D per ridurre la latenza di cold-start.
5. HFX supporta architetture di deployment collocate e disaggregate.
6. Gli approcci esistenti si basano su scheduling statico o impostazioni a singolo task.
7. Il sistema è progettato per l'uso in produzione con richieste eterogenee.
8. L'articolo è disponibile su arXiv con ID 2508.15919.

HFX System ottimizza il servizio LLM con supporto multi-SLO e scaling rapido

Fatti principali

Entità

Istituzioni

Fonti