Irminsul: Caching Posizione-Indipendente per il Servizio di LLM Agentici
Irminsul, un sistema di caching di nuova concezione, affronta le regressioni di cache-hit nei carichi di lavoro LLM agentici, dove token identici sono posizionati diversamente a ogni turno, rendendo inefficaci i cache di prefisso. Gli operatori hanno segnalato rallentamenti significativi, con ritardi time-to-first-token (TTFT) che raggiungono 10-16 secondi anche con contenuti invariati. I precedenti sistemi di caching posizione-indipendente affrontavano la Rotary Position Embedding (RoPE) sull'intera dimensione della chiave, incorrendo in un costo architetturale dovuto all'attenzione a query raggruppata (GQA). Al contrario, l'attenzione latente multi-testa (MLA), utilizzata in modelli come DeepSeek-V2/V3/R1 e Kimi-K2/Moonlight, separa ogni riga KV in un c_KV senza posizione e un k_r correggibile a 64 dimensioni. Irminsul migliora il radix cache di SGLang utilizzando l'hashing basato sul contenuto su segmenti di Content-Defined Chunking (CDC) e una regola di delta-rotazione per k_r. Il sistema è testato su tre implementazioni native MLA-MoE, tra cui DeepSeek-V2-Lite (16B/2.4B) e Kimi.
Fatti principali
- Irminsul è un sistema di caching posizione-indipendente per il servizio di LLM agentici.
- I carichi di lavoro agentici causano token bit-identici in posizioni spostate, invalidando i cache di prefisso.
- Gli operatori segnalano picchi di TTFT di 10-16 secondi su contenuti invariati.
- I sistemi precedenti correggevano RoPE sull'intera dimensione della chiave, un costo architetturale dovuto a GQA.
- MLA fattorizza le righe KV in c_KV senza posizione e k_r a 64 dimensioni correggibile in forma chiusa.
- MLA è implementato in DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5 e Mistral Large 3.
- Irminsul estende il radix cache di SGLang con hashing basato sul contenuto su segmenti CDC.
- Irminsul utilizza una regola di delta-rotazione per k_r.
- Valutato su DeepSeek-V2-Lite (16B/2.4B), Kimi.
Entità
Istituzioni
- DeepSeek
- Kimi
- GLM
- Mistral
- SGLang