Documento Tecnico Propone un Routing Consapevole del Budget di Token per un'Inferenza Efficiente dei Modelli Linguistici di Grandi Dimensioni
Un nuovo documento di ricerca presenta un metodo chiamato routing a pool consapevole del budget di token per migliorare l'efficienza dei sistemi di inferenza dei modelli linguistici di grandi dimensioni. Tipicamente, le flotte vLLM di produzione allocano istanze basandosi sullo scenario peggiore per le lunghezze del contesto, portando a uno spreco di concorrenza di 4-8 volte per l'80-95% delle richieste brevi. Questa discrepanza tra configurazione e traffico provoca problemi di KV-cache, inclusi crash per memoria insufficiente, tempeste di prelazione e dinieghi di richiesta. L'approccio proposto calcola il budget totale di token per ogni richiesta utilizzando un rapporto auto-calibrante di byte-per-token, appreso online attraverso medie mobili esponenziali dal feedback di usage.prompt_tokens, eliminando la necessità di un tokenizer. Le richieste vengono inviate a un pool ad alta produttività per richieste brevi o a un pool ad alta capacità per richieste lunghe, ottimizzati per i rispettivi carichi di lavoro. Un modello di costo in forma chiusa prevede risparmi a livello di GPU a livello di flotta, basato su due metriche osservabili: la frazione di traffico breve alfa e il rapporto di guadagno di produttività rho, con risparmi calcolati come alfa * (1 - 1/rho). Questo metodo è stato validato utilizzando tracce di Azure, indicando un potenziale sostanziale per migliorare l'efficienza della distribuzione dei modelli linguistici di grandi dimensioni. Il documento, identificato come 2604.09613v1, è stato pubblicato su arXiv come annuncio incrociato.
Fatti principali
- Le flotte vLLM di produzione sprecano 4-8 volte la concorrenza sulle richieste brevi
- L'80-95% delle richieste sono brevi, ma le flotte si approvvigionano per la lunghezza massima del contesto
- La discrepanza configurazione-traffico causa fallimenti della KV-cache, inclusi crash per memoria insufficiente
- Il routing a pool consapevole del budget di token stima i budget di token delle richieste utilizzando rapporti auto-calibranti
- Il sistema invia le richieste a un pool ad alta produttività per richieste brevi o a un pool ad alta capacità per richieste lunghe
- Il rapporto byte-per-token viene appreso online tramite media mobile esponenziale da usage.prompt_tokens
- Il modello di costo in forma chiusa prevede risparmi di GPU: risparmi = alfa * (1 - 1/rho)
- Il documento è stato annunciato su arXiv con identificatore 2604.09613v1 come annuncio incrociato
Entità
Istituzioni
- arXiv
- Azure