Modello di Teoria delle Code per la Stabilità dell'Inferenza di LLM con Vincoli di Cache KV
Un nuovo quadro teorico basato sulla teoria delle code da arXiv:2605.04595 analizza la stabilità nell'inferenza di modelli linguistici di grandi dimensioni (LLM) sotto vincoli sia computazionali che di memoria GPU, affrontando specificamente il sovraccarico della cache key-value (KV). Lo studio deriva condizioni rigorose di stabilità e instabilità per determinare se un servizio di inferenza LLM può sostenere la domanda senza una crescita illimitata della coda. Combinando i tassi di arrivo delle richieste stimati con i tassi di servizio stabili derivati, gli operatori possono calcolare le dimensioni del cluster necessarie per evitare superamenti dei costi. Questo lavoro fornisce uno strumento per il provisioning della GPU nel deployment di LLM.
Fatti principali
- 1. arXiv:2605.04595 introduce il primo quadro teorico basato sulla teoria delle code per l'inferenza di LLM con vincoli di memoria cache KV.
- 2. Il quadro incorpora sia vincoli computazionali che di memoria GPU.
- 3. Vengono derivate condizioni rigorose di stabilità e instabilità.
- 4. Il risultato aiuta a determinare se un servizio LLM può sostenere la domanda senza una crescita illimitata della coda.
- 5. Gli operatori possono calcolare la dimensione del cluster necessaria utilizzando il tasso di arrivo e il tasso di servizio stabile.
- 6. L'articolo affronta la sfida centrale del provisioning della GPU.
- 7. La cache KV accelera la decodifica ma esaurisce la memoria GPU.
- 8. Il lavoro proviene da arXiv, pubblicato sotto Announce Type cross.
Entità
Istituzioni
- arXiv