ARTFEED — Contemporary Art Intelligence

CacheTTL: Tempo di Vita della Cache KV per la Pianificazione di Agenti LLM Multi-Turno

ai-technology · 2026-05-07

Un nuovo sistema chiamato CacheTTL migliora l'efficienza del completamento dei job per attività di agenti LLM multi-turno preservando la cache KV durante le invocazioni degli strumenti. I motori di inferenza attuali scartano la cache KV delle richieste completate quando ne arrivano di nuove, interrompendo i carichi di lavoro agentici che alternano chiamate LLM e strumenti, causando ritardi che ostacolano un efficace riutilizzo della KV. CacheTTL tiene conto sia dei potenziali costi associati alla ricomputazione o al ricaricamento (se l'offloading è attivato) sia dell'aumento dei tempi di coda dopo l'evizione dalla GPU. Questo approccio si dimostra efficace anche quando le durate delle chiamate agli strumenti mostrano una prevedibilità limitata a causa di fluttuazioni interne. I dettagli di questo sistema sono disponibili nell'articolo arXiv 2511.02230.

Fatti principali

  • CacheTTL è un sistema di servizio per carichi di lavoro di agenti LLM multi-turno.
  • Mantiene la cache KV durante le chiamate agli strumenti per migliorare l'efficienza.
  • I motori di inferenza esistenti espellono la cache KV delle richieste completate quando nuove richieste attendono.
  • I carichi di lavoro agentici alternano chiamate LLM con strumenti, causando pause.
  • Le chiamate agli strumenti sono spesso più brevi delle risposte umane in chatbot multi-turno.
  • CacheTTL considera i costi di ricomputazione/ricaricamento e i ritardi di coda.
  • Il metodo è robusto rispetto alla varianza nelle durate delle chiamate agli strumenti.
  • L'articolo è disponibile su arXiv con ID 2511.02230.

Entità

Istituzioni

  • arXiv

Fonti