La pianificazione guidata dal fluido ottimizza l'inferenza LLM con vincoli di memoria

ai-technology · 2026-05-18

Un nuovo articolo su arXiv (2504.11320) introduce WAIT e Nested WAIT, regole di ammissione basate su soglie per la pianificazione dell'inferenza LLM. La ricerca affronta la crescita endogena della memoria nelle cache Key-Value, che può espellere richieste in corso e sprecare calcolo. I fornitori affrontano costi superiori a 700.000 dollari al giorno per servire milioni di utenti. Il modello fluido caratterizza la composizione di equilibrio del batch, il requisito di memoria e la regione di stabilità. WAIT gestisce lunghezze di output note, mentre Nested WAIT si estende a lunghezze sconosciute regolando l'avanzamento delle richieste attraverso le fasi di decodifica. Il lavoro formula l'inferenza come un problema di pianificazione online multi-stadio con tempi di iterazione lineari e vincoli di cache KV residente in GPU.

Fatti principali

L'articolo arXiv 2504.11320 introduce le regole di pianificazione WAIT e Nested WAIT
I fornitori di LLM sostengono costi superiori a 700.000 dollari al giorno
La crescita endogena della memoria nella cache KV può espellere richieste in corso
Il modello fluido caratterizza la composizione di equilibrio del batch e la regione di stabilità
WAIT è una regola di ammissione basata su soglie per lunghezze di output note
Nested WAIT si estende a lunghezze di output sconosciute
L'inferenza è formulata come un problema di pianificazione online multi-stadio
I vincoli della cache KV residente in GPU sono centrali nel modello

La pianificazione guidata dal fluido ottimizza l'inferenza LLM con vincoli di memoria

Fatti principali

Entità

Istituzioni

Fonti