Il sistema STREAM2LLM riduce la latenza nell'inferenza AI attraverso lo streaming contestuale
STREAM2LLM è un sistema innovativo progettato per affrontare i problemi di latenza nell'inferenza dei grandi modelli linguistici integrando il recupero contestuale con l'elaborazione. Esso potenzia il framework vLLM per accogliere prompt in streaming, caratterizzandosi per pianificazione adattiva e prelazione. Il sistema gestisce efficacemente due modalità di recupero: la modalità append per l'accumulo contestuale graduale e la modalità update per l'affinamento iterativo con invalidazione della cache. Separando la pianificazione dall'acquisizione delle risorse, STREAM2LLM facilita strategie di prelazione flessibili basate su modelli di costo specifici per l'hardware. Questa ricerca affronta il dilemma intrinseco nei sistemi di recupero contestuale, dove l'elevata latenza di recupero costringe a scegliere tra attendere il contesto completo o procedere senza di esso. A differenza dei sistemi precedenti focalizzati su scenari a singola richiesta, questa architettura gestisce efficientemente richieste concorrenti in ambienti multi-tenant, affrontando la contesa della memoria GPU e adattandosi agli arrivi contestuali dinamici.
Fatti principali
- STREAM2LLM riduce il tempo al primo token nell'inferenza dei LLM
- Il sistema estende il framework vLLM con supporto per prompt in streaming
- Gestisce due modalità di recupero: append-mode e update-mode
- Disaccoppia le decisioni di pianificazione dall'acquisizione delle risorse
- Abilita strategie di prelazione flessibili con modelli di costo specifici per l'hardware
- Affronta le sfide nelle distribuzioni multi-tenant con richieste concorrenti
- Supera la tensione tra attendere il contesto completo o procedere senza di esso
- Ricerca pubblicata come arXiv:2604.16395v1 con tipo di annuncio incrociato
Entità
—