ARTFEED — Contemporary Art Intelligence

Il Caching Sparso dei Prefissi Ottimizza il Servizio di LLM Ibridi e Ricorrenti

other · 2026-05-09

Una recente pubblicazione su arXiv (2605.05219) presenta un metodo per il caching sparso dei prefissi, progettato per il deployment di modelli linguistici di grandi dimensioni (LLM) ibridi e ricorrenti. A differenza dei modelli autoregressivi convenzionali che dipendono da un caching denso di chiave/valore per ogni token, i modelli a spazio di stato (SSM) consentono di riprendere da un singolo stato ricorrente salvato. Questa caratteristica unica facilita un approccio innovativo al caching: memorizzando stati ricorrenti precisi in punti di controllo strategicamente sparsi, il modello può riprendere dal punto di controllo più profondo memorizzato in caso di cache hit e ricalcolare accuratamente il suffisso. Gli autori definiscono questo come un problema di posizionamento dei checkpoint basato su una distribuzione delle profondità di sovrapposizione, fornendo una soluzione di programmazione dinamica esatta O(NM). In scenari in cui le richieste condividono prefissi significativi, come interrogare vari aspetti di un lungo documento, questa tecnica migliora la frontiera di Pareto rispetto alle euristiche standard utilizzando dati reali da QuALITY e Sys.

Fatti principali

  • L'articolo arXiv 2605.05219 introduce il caching sparso dei prefissi per il servizio di LLM ibridi e ricorrenti.
  • I modelli a spazio di stato possono riprendere da un singolo stato ricorrente memorizzato, a differenza del caching denso per token.
  • Il metodo memorizza stati ricorrenti esatti in posizioni di checkpoint sparse.
  • In caso di cache hit, il sistema riprende dal checkpoint più profondo memorizzato e ricalcola il suffisso rimanente.
  • L'approccio è formalizzato come un problema di posizionamento dei checkpoint con un programma dinamico O(NM).
  • Migliora la frontiera di Pareto rispetto alle euristiche standard sui dataset QuALITY e Sys.
  • La tecnica è vantaggiosa in scenari in cui le richieste condividono un prefisso non banale.
  • L'articolo è un tipo di invio incrociato.

Entità

Istituzioni

  • arXiv

Fonti