SpecKV: Decodifica Speculativa Adattiva per LLM

ai-technology · 2026-05-07

Un team di ricercatori ha introdotto SpecKV, un controller adattivo efficiente che determina la lunghezza di speculazione gamma per ogni passo nel processo di decodifica speculativa dei grandi modelli linguistici. Questa tecnica impiega un modello bozza più piccolo per suggerire token potenziali, che vengono poi validati da un modello target più grande, accelerando così l'inferenza. Il valore ideale di gamma è influenzato dal tipo di attività e dal livello di compressione del modello target. La ricerca ha esaminato la decodifica speculativa in quattro categorie di attività, quattro lunghezze di speculazione e tre livelli di compressione (FP16, INT8, NF4), raccogliendo 5.112 record che includevano tassi di accettazione per passo, entropia della bozza e confidenza della bozza. SpecKV migliora l'efficienza utilizzando segnali dal modello bozza per regolare gamma dinamicamente, superando i metodi a gamma fissa.

Fatti principali

SpecKV è un controller adattivo per selezionare la lunghezza di speculazione gamma nella decodifica speculativa.
La decodifica speculativa utilizza un piccolo modello bozza per proporre token candidati per un modello target più grande.
Gamma determina quanti token il modello bozza propone per passo.
Il gamma ottimale varia tra tipi di attività e livelli di compressione.
Lo studio ha profilato 4 categorie di attività, 4 lunghezze di speculazione, 3 livelli di compressione.
Sono stati raccolti 5.112 record a livello di passo.
I record includono tassi di accettazione per passo, entropia della bozza e confidenza della bozza.
SpecKV utilizza segnali dal modello bozza per regolare gamma dinamicamente.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06