Documento Tecnico Propone un Routing Consapevole del Budget di Token per un'Inferenza Efficiente dei Modelli Linguistici di Grandi Dimensioni

publication · 2026-04-14

Un nuovo documento di ricerca presenta un metodo chiamato routing a pool consapevole del budget di token per migliorare l'efficienza dei sistemi di inferenza dei modelli linguistici di grandi dimensioni. Tipicamente, le flotte vLLM di produzione allocano istanze basandosi sullo scenario peggiore per le lunghezze del contesto, portando a uno spreco di concorrenza di 4-8 volte per l'80-95% delle richieste brevi. Questa discrepanza tra configurazione e traffico provoca problemi di KV-cache, inclusi crash per memoria insufficiente, tempeste di prelazione e dinieghi di richiesta. L'approccio proposto calcola il budget totale di token per ogni richiesta utilizzando un rapporto auto-calibrante di byte-per-token, appreso online attraverso medie mobili esponenziali dal feedback di usage.prompt_tokens, eliminando la necessità di un tokenizer. Le richieste vengono inviate a un pool ad alta produttività per richieste brevi o a un pool ad alta capacità per richieste lunghe, ottimizzati per i rispettivi carichi di lavoro. Un modello di costo in forma chiusa prevede risparmi a livello di GPU a livello di flotta, basato su due metriche osservabili: la frazione di traffico breve alfa e il rapporto di guadagno di produttività rho, con risparmi calcolati come alfa * (1 - 1/rho). Questo metodo è stato validato utilizzando tracce di Azure, indicando un potenziale sostanziale per migliorare l'efficienza della distribuzione dei modelli linguistici di grandi dimensioni. Il documento, identificato come 2604.09613v1, è stato pubblicato su arXiv come annuncio incrociato.

Fatti principali

Le flotte vLLM di produzione sprecano 4-8 volte la concorrenza sulle richieste brevi
L'80-95% delle richieste sono brevi, ma le flotte si approvvigionano per la lunghezza massima del contesto
La discrepanza configurazione-traffico causa fallimenti della KV-cache, inclusi crash per memoria insufficiente
Il routing a pool consapevole del budget di token stima i budget di token delle richieste utilizzando rapporti auto-calibranti
Il sistema invia le richieste a un pool ad alta produttività per richieste brevi o a un pool ad alta capacità per richieste lunghe
Il rapporto byte-per-token viene appreso online tramite media mobile esponenziale da usage.prompt_tokens
Il modello di costo in forma chiusa prevede risparmi di GPU: risparmi = alfa * (1 - 1/rho)
Il documento è stato annunciato su arXiv con identificatore 2604.09613v1 come annuncio incrociato

Documento Tecnico Propone un Routing Consapevole del Budget di Token per un'Inferenza Efficiente dei Modelli Linguistici di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti