Il sistema STREAM2LLM riduce la latenza nell'inferenza AI attraverso lo streaming contestuale

ai-technology · 2026-04-22

STREAM2LLM è un sistema innovativo progettato per affrontare i problemi di latenza nell'inferenza dei grandi modelli linguistici integrando il recupero contestuale con l'elaborazione. Esso potenzia il framework vLLM per accogliere prompt in streaming, caratterizzandosi per pianificazione adattiva e prelazione. Il sistema gestisce efficacemente due modalità di recupero: la modalità append per l'accumulo contestuale graduale e la modalità update per l'affinamento iterativo con invalidazione della cache. Separando la pianificazione dall'acquisizione delle risorse, STREAM2LLM facilita strategie di prelazione flessibili basate su modelli di costo specifici per l'hardware. Questa ricerca affronta il dilemma intrinseco nei sistemi di recupero contestuale, dove l'elevata latenza di recupero costringe a scegliere tra attendere il contesto completo o procedere senza di esso. A differenza dei sistemi precedenti focalizzati su scenari a singola richiesta, questa architettura gestisce efficientemente richieste concorrenti in ambienti multi-tenant, affrontando la contesa della memoria GPU e adattandosi agli arrivi contestuali dinamici.

Fatti principali

STREAM2LLM riduce il tempo al primo token nell'inferenza dei LLM
Il sistema estende il framework vLLM con supporto per prompt in streaming
Gestisce due modalità di recupero: append-mode e update-mode
Disaccoppia le decisioni di pianificazione dall'acquisizione delle risorse
Abilita strategie di prelazione flessibili con modelli di costo specifici per l'hardware
Affronta le sfide nelle distribuzioni multi-tenant con richieste concorrenti
Supera la tensione tra attendere il contesto completo o procedere senza di esso
Ricerca pubblicata come arXiv:2604.16395v1 con tipo di annuncio incrociato

Entità

—

Fonti

arXiv cs.AI — 2026-04-21