HFX System ottimizza il servizio LLM con supporto multi-SLO e scaling rapido
Il sistema di produzione HFX è stato sviluppato per migliorare la pianificazione delle richieste e lo scaling elastico per il servizio di modelli linguistici di grandi dimensioni (LLM). Affronta efficacemente la sfida di soddisfare vari obiettivi di livello di servizio (SLO) mantenendo bassi i costi computazionali in ambienti dinamici e multi-task. HFX presenta uno scheduler che stima proattivamente i budget e prioritizza le richieste per mantenere la conformità agli SLO sia per i nuovi task che per quelli in corso. Inoltre, include uno scaler che facilita trasferimenti rapidi di pesi da dispositivo a dispositivo (D2D), riducendo così la latenza di cold-start. HFX supporta sia modelli di deployment collocati che disaggregati. Questo lavoro è dettagliato in un articolo su arXiv (2508.15919), che evidenzia le carenze degli attuali metodi di scheduling statico e delle strategie a singolo task.
Fatti principali
- 1. HFX ottimizza congiuntamente la pianificazione delle richieste e lo scaling elastico per il servizio LLM.
- 2. Affronta SLO rigorosi specifici per utente in carichi di lavoro dinamici e multi-task.
- 3. Lo scheduler esegue una stima proattiva del budget e una prioritizzazione.
- 4. Lo scaler supporta il trasferimento rapido di pesi D2D per ridurre la latenza di cold-start.
- 5. HFX supporta architetture di deployment collocate e disaggregate.
- 6. Gli approcci esistenti si basano su scheduling statico o impostazioni a singolo task.
- 7. Il sistema è progettato per l'uso in produzione con richieste eterogenee.
- 8. L'articolo è disponibile su arXiv con ID 2508.15919.
Entità
Istituzioni
- arXiv