Il Serving per LLM Necessita di Ottimizzazione Matematica, Non di Euristiche
Un recente position paper pubblicato su arXiv sostiene che il serving per l'inferenza dei LLM ha superato le capacità delle euristiche standard, richiedendo un passaggio verso l'ottimizzazione matematica e algoritmi fondamentali. Sebbene ci siano stati sviluppi significativi in sistemi di serving come vLLM e SGLang, i loro algoritmi sottostanti utilizzano ancora strategie tradizionali di elaborazione distribuita, come round-robin e join-shortest-queue per la gestione delle richieste, FIFO per la schedulazione e LRU per l'evizione della cache. Queste politiche generali trascurano gli aspetti unici dell'inferenza dei LLM, come la natura dinamica della memoria cache KV, le asimmetrie nella fase prefill-decode, le lunghezze di output imprevedibili e le limitazioni del batching continuo. Gli autori sostengono la creazione di modelli matematici che riflettano accuratamente queste caratteristiche per stabilire algoritmi con garanzie di performance su vari carichi di lavoro, piuttosto che dipendere da euristiche che possono essere inconsistenti.
Fatti principali
- Il paper sostiene che il serving per LLM necessita di ottimizzazione matematica, non solo euristiche.
- I sistemi attuali come vLLM e SGLang utilizzano politiche classiche di elaborazione distribuita.
- Le politiche includono join-shortest-queue, round-robin, FIFO e LRU.
- L'inferenza dei LLM ha caratteristiche uniche: cache KV dinamica, asimmetria prefill-decode, lunghezze di output sconosciute, batching continuo.
- Il paper chiede modelli matematici con garanzie di performance dimostrabili.
- Le euristiche possono avere successo in alcuni scenari ma fallire in modo imprevedibile.
- Pubblicato su arXiv con ID 2605.01280.
- Viene notato il lavoro emergente all'intersezione tra ottimizzazione e serving per LLM.
Entità
Istituzioni
- arXiv