Frontier: Un Simulatore per il Servizio di Inferenza LLM Moderno
Frontier è un simulatore a eventi discreti progettato per compiti di inferenza LLM contemporanei, affrontando le carenze dei simulatori attuali nella gestione dell'esecuzione disaggregata, del parallelismo complesso, delle ottimizzazioni runtime e dei carichi di lavoro con stato come il ragionamento e i rollout RL. Simula efficacemente la co-locazione, la disaggregazione Prefill-Decode (PDD) e la disaggregazione Attention-FFN (AFD) attraverso worker cluster specifici per ruolo, integrando ottimizzazioni runtime essenziali per raggiungere una precisione a livello decisionale.
Fatti principali
- Frontier è un simulatore a eventi discreti per il servizio di inferenza LLM.
- Affronta l'esecuzione disaggregata, il parallelismo complesso, le ottimizzazioni runtime e i carichi di lavoro con stato.
- I simulatori esistenti mancano di completezza architetturale e fedeltà per i sistemi moderni.
- Frontier modella la co-locazione, PDD e AFD con worker cluster specifici per ruolo.
- Incorpora ottimizzazioni runtime chiave.
- L'articolo è disponibile su arXiv con ID 2605.21312.
- Il servizio LLM moderno non è più omogeneo o monolitico.
- La simulazione è interessante per esplorare il crescente spazio di progettazione.
Entità
Istituzioni
- arXiv