CacheTTL: Tempo di Vita della Cache KV per la Pianificazione di Agenti LLM Multi-Turno

ai-technology · 2026-05-07

Un nuovo sistema chiamato CacheTTL migliora l'efficienza del completamento dei job per attività di agenti LLM multi-turno preservando la cache KV durante le invocazioni degli strumenti. I motori di inferenza attuali scartano la cache KV delle richieste completate quando ne arrivano di nuove, interrompendo i carichi di lavoro agentici che alternano chiamate LLM e strumenti, causando ritardi che ostacolano un efficace riutilizzo della KV. CacheTTL tiene conto sia dei potenziali costi associati alla ricomputazione o al ricaricamento (se l'offloading è attivato) sia dell'aumento dei tempi di coda dopo l'evizione dalla GPU. Questo approccio si dimostra efficace anche quando le durate delle chiamate agli strumenti mostrano una prevedibilità limitata a causa di fluttuazioni interne. I dettagli di questo sistema sono disponibili nell'articolo arXiv 2511.02230.

Fatti principali

CacheTTL è un sistema di servizio per carichi di lavoro di agenti LLM multi-turno.
Mantiene la cache KV durante le chiamate agli strumenti per migliorare l'efficienza.
I motori di inferenza esistenti espellono la cache KV delle richieste completate quando nuove richieste attendono.
I carichi di lavoro agentici alternano chiamate LLM con strumenti, causando pause.
Le chiamate agli strumenti sono spesso più brevi delle risposte umane in chatbot multi-turno.
CacheTTL considera i costi di ricomputazione/ricaricamento e i ritardi di coda.
Il metodo è robusto rispetto alla varianza nelle durate delle chiamate agli strumenti.
L'articolo è disponibile su arXiv con ID 2511.02230.

CacheTTL: Tempo di Vita della Cache KV per la Pianificazione di Agenti LLM Multi-Turno

Fatti principali

Entità

Istituzioni

Fonti