Il Framework SPECTRE Migliora l'Efficienza dell'Inferenza LLM tramite Decodifica Speculativa Ibrida Parallela

ai-technology · 2026-05-12

SPECTRE è un framework volto a migliorare l'efficienza delle risorse nei sistemi cloud LLM multi-modello. Affronta il problema della domanda a coda lunga, dove un piccolo numero di modelli grandi riceve la maggior parte delle richieste, lasciando sottoutilizzati i modelli di coda più piccoli. Utilizzando questi servizi di modelli di coda meno frequentati come drafters remoti per i modelli grandi sovraccarichi attraverso la decodifica speculativa, SPECTRE ottimizza le prestazioni. Il framework consente la generazione simultanea di bozze e la verifica lato target, ottenuta attraverso tre tecniche principali: un approccio di decodifica speculativa ibrido ordinario-parallelo basato su una soglia derivata dal throughput, una pianificazione prioritaria speculativa per garantire la sovrapposizione bozza-target in presenza di traffico multi-tenancy, e la compressione del prompt lato bozza per minimizzare la latenza. SPECTRE è implementato in SGLang.

Fatti principali

SPECTRE sta per Parallel SPECulative Decoding with a Multi-Tenant REmote Drafter.
Si rivolge a piattaforme di servizio LLM cloud multi-modello con distribuzioni di richieste a coda lunga.
Riutilizza i servizi di modelli di coda sottoutilizzati come drafters remoti per modelli grandi.
Consente la generazione parallela di bozze e la verifica lato target.
Tre tecniche: decodifica speculativa ibrida ordinario-parallela, pianificazione prioritaria speculativa, compressione del prompt lato bozza.
Implementazione in SGLang.
Il paper è arXiv:2605.08151v1.
L'approccio è progettato per migliorare l'efficienza delle risorse.

Il Framework SPECTRE Migliora l'Efficienza dell'Inferenza LLM tramite Decodifica Speculativa Ibrida Parallela

Fatti principali

Entità

Istituzioni

Fonti