Il Framework SPECTRE Migliora l'Efficienza dell'Inferenza LLM tramite Decodifica Speculativa Ibrida Parallela
SPECTRE è un framework volto a migliorare l'efficienza delle risorse nei sistemi cloud LLM multi-modello. Affronta il problema della domanda a coda lunga, dove un piccolo numero di modelli grandi riceve la maggior parte delle richieste, lasciando sottoutilizzati i modelli di coda più piccoli. Utilizzando questi servizi di modelli di coda meno frequentati come drafters remoti per i modelli grandi sovraccarichi attraverso la decodifica speculativa, SPECTRE ottimizza le prestazioni. Il framework consente la generazione simultanea di bozze e la verifica lato target, ottenuta attraverso tre tecniche principali: un approccio di decodifica speculativa ibrido ordinario-parallelo basato su una soglia derivata dal throughput, una pianificazione prioritaria speculativa per garantire la sovrapposizione bozza-target in presenza di traffico multi-tenancy, e la compressione del prompt lato bozza per minimizzare la latenza. SPECTRE è implementato in SGLang.
Fatti principali
- SPECTRE sta per Parallel SPECulative Decoding with a Multi-Tenant REmote Drafter.
- Si rivolge a piattaforme di servizio LLM cloud multi-modello con distribuzioni di richieste a coda lunga.
- Riutilizza i servizi di modelli di coda sottoutilizzati come drafters remoti per modelli grandi.
- Consente la generazione parallela di bozze e la verifica lato target.
- Tre tecniche: decodifica speculativa ibrida ordinario-parallela, pianificazione prioritaria speculativa, compressione del prompt lato bozza.
- Implementazione in SGLang.
- Il paper è arXiv:2605.08151v1.
- L'approccio è progettato per migliorare l'efficienza delle risorse.
Entità
Istituzioni
- arXiv
- SGLang