BatchLLM ottimizza l'inferenza LLM in batch di grandi dimensioni con la condivisione dei prefissi
BatchLLM è un sistema progettato per ottimizzare l'inferenza LLM in batch di grandi dimensioni sfruttando la condivisione globale dei prefissi e il batching dei token orientato al throughput. Affronta i limiti dei motori di inferenza LLM esistenti, ottimizzati per richieste in streaming e in difficoltà con compiti in batch di grandi dimensioni che presentano condivisione dei prefissi. Le soluzioni attuali utilizzano una cache basata su LRU per il riutilizzo del contesto KV, ma soffrono di espulsione prematura e dell'incapacità di mescolare token di decodifica con chunk di prefill. BatchLLM introduce un meccanismo di condivisione globale dei prefissi e una strategia di batching dei token orientata al throughput per migliorare le prestazioni. Il sistema si rivolge a compiti offline e in batch di grandi dimensioni comuni nell'industria, dove il throughput è l'indicatore chiave di prestazione. L'articolo è disponibile su arXiv con ID 2412.03594.
Fatti principali
- BatchLLM ottimizza l'inferenza LLM in batch di grandi dimensioni.
- Utilizza la condivisione globale dei prefissi e il batching dei token orientato al throughput.
- I motori di inferenza LLM esistenti sono ottimizzati per richieste in streaming.
- Le soluzioni attuali utilizzano una cache basata su LRU per il riutilizzo del contesto KV.
- La cache basata su LRU soffre di espulsione prematura.
- BatchLLM si rivolge a compiti offline e in batch di grandi dimensioni.
- Il throughput è l'indicatore chiave di prestazione per questi compiti.
- Articolo disponibile su arXiv:2412.03594.
Entità
—