La pianificazione guidata dal fluido ottimizza l'inferenza LLM con vincoli di memoria
Un nuovo articolo su arXiv (2504.11320) introduce WAIT e Nested WAIT, regole di ammissione basate su soglie per la pianificazione dell'inferenza LLM. La ricerca affronta la crescita endogena della memoria nelle cache Key-Value, che può espellere richieste in corso e sprecare calcolo. I fornitori affrontano costi superiori a 700.000 dollari al giorno per servire milioni di utenti. Il modello fluido caratterizza la composizione di equilibrio del batch, il requisito di memoria e la regione di stabilità. WAIT gestisce lunghezze di output note, mentre Nested WAIT si estende a lunghezze sconosciute regolando l'avanzamento delle richieste attraverso le fasi di decodifica. Il lavoro formula l'inferenza come un problema di pianificazione online multi-stadio con tempi di iterazione lineari e vincoli di cache KV residente in GPU.
Fatti principali
- L'articolo arXiv 2504.11320 introduce le regole di pianificazione WAIT e Nested WAIT
- I fornitori di LLM sostengono costi superiori a 700.000 dollari al giorno
- La crescita endogena della memoria nella cache KV può espellere richieste in corso
- Il modello fluido caratterizza la composizione di equilibrio del batch e la regione di stabilità
- WAIT è una regola di ammissione basata su soglie per lunghezze di output note
- Nested WAIT si estende a lunghezze di output sconosciute
- L'inferenza è formulata come un problema di pianificazione online multi-stadio
- I vincoli della cache KV residente in GPU sono centrali nel modello
Entità
Istituzioni
- arXiv