Irminsul: Caching Posizione-Indipendente per il Servizio di LLM Agentici

ai-technology · 2026-05-09

Irminsul, un sistema di caching di nuova concezione, affronta le regressioni di cache-hit nei carichi di lavoro LLM agentici, dove token identici sono posizionati diversamente a ogni turno, rendendo inefficaci i cache di prefisso. Gli operatori hanno segnalato rallentamenti significativi, con ritardi time-to-first-token (TTFT) che raggiungono 10-16 secondi anche con contenuti invariati. I precedenti sistemi di caching posizione-indipendente affrontavano la Rotary Position Embedding (RoPE) sull'intera dimensione della chiave, incorrendo in un costo architetturale dovuto all'attenzione a query raggruppata (GQA). Al contrario, l'attenzione latente multi-testa (MLA), utilizzata in modelli come DeepSeek-V2/V3/R1 e Kimi-K2/Moonlight, separa ogni riga KV in un c_KV senza posizione e un k_r correggibile a 64 dimensioni. Irminsul migliora il radix cache di SGLang utilizzando l'hashing basato sul contenuto su segmenti di Content-Defined Chunking (CDC) e una regola di delta-rotazione per k_r. Il sistema è testato su tre implementazioni native MLA-MoE, tra cui DeepSeek-V2-Lite (16B/2.4B) e Kimi.

Fatti principali

Irminsul è un sistema di caching posizione-indipendente per il servizio di LLM agentici.
I carichi di lavoro agentici causano token bit-identici in posizioni spostate, invalidando i cache di prefisso.
Gli operatori segnalano picchi di TTFT di 10-16 secondi su contenuti invariati.
I sistemi precedenti correggevano RoPE sull'intera dimensione della chiave, un costo architetturale dovuto a GQA.
MLA fattorizza le righe KV in c_KV senza posizione e k_r a 64 dimensioni correggibile in forma chiusa.
MLA è implementato in DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5 e Mistral Large 3.
Irminsul estende il radix cache di SGLang con hashing basato sul contenuto su segmenti CDC.
Irminsul utilizza una regola di delta-rotazione per k_r.
Valutato su DeepSeek-V2-Lite (16B/2.4B), Kimi.

Entità

Istituzioni

DeepSeek
Kimi
GLM
Mistral
SGLang

Fonti

arXiv cs.AI — 2026-05-09