L'ottimizzazione ibrida JIT-CUDA Graph riduce la latenza di inferenza LLM del 66%
I ricercatori propongono un framework runtime ibrido che combina la compilazione Just-In-Time (JIT) con l'esecuzione CUDA Graph per ridurre la latenza di inferenza nei modelli linguistici di grandi dimensioni (LLM). L'approccio suddivide l'inferenza del trasformatore in componenti statici (riprodotti tramite CUDA Graph) e componenti dinamici (gestiti da kernel compilati JIT), consentendo la cattura asincrona del grafico e il riutilizzo attraverso i passaggi di decodifica autoregressiva. Valutato su LLaMA-2 7B con inferenza a singola GPU e batch-size-uno per lunghezze di prompt da 10 a 500 token, il metodo raggiunge fino al 66,0% di riduzione del Time-to-First-Token (TTFT). Il lavoro affronta il sovraccarico di lancio del kernel in contesti interattivi e a sequenze brevi, migliorando il dispiegamento pratico degli LLM.
Fatti principali
- Il runtime ibrido combina la compilazione JIT con l'esecuzione CUDA Graph
- Suddivide l'inferenza del trasformatore in componenti statici e dinamici
- I componenti statici vengono eseguiti tramite riproduzione CUDA Graph
- I componenti dinamici sono gestiti tramite kernel compilati JIT
- Consente la cattura asincrona del grafico e il riutilizzo attraverso i passaggi di decodifica
- Valutato su LLaMA-2 7B con inferenza a singola GPU e batch-size-uno
- Lunghezze del prompt da 10 a 500 token
- Riduce il Time-to-First-Token (TTFT) fino al 66,0%
Entità
—