Il framework CacheClip accelera RAG con il riutilizzo della KV cache

other · 2026-05-23

Un nuovo framework chiamato CacheClip affronta i colli di bottiglia del time-to-first-token (TTFT) nei sistemi Retrieval-Augmented Generation (RAG) riutilizzando la KV cache. I metodi esistenti come il prefix caching e la precomputazione diretta soffrono di compromessi tra velocità e qualità. CacheClip sfrutta piccoli LLM ausiliari che mostrano distribuzioni di attenzione dell'ultimo strato simili a quelle degli LLM primari, consentendo un'identificazione efficiente dei token critici per ripristinare l'attenzione tra chunk. Ciò migliora la qualità delle risposte in compiti di ragionamento tra chunk, ottenendo al contempo un TTFT rapido. L'articolo è disponibile su arXiv con identificatore 2510.10129.

Fatti principali

CacheClip è un nuovo framework per accelerare i sistemi RAG.
Affronta i colli di bottiglia del TTFT causati da sequenze di input lunghe.
I metodi esistenti di riutilizzo della KV cache affrontano compromessi tra velocità e qualità.
Il prefix caching richiede prefissi identici, rari negli scenari RAG.
La precomputazione diretta sacrifica la qualità a causa della mancanza di attenzione tra chunk.
CacheClip utilizza piccoli LLM ausiliari con distribuzioni di attenzione simili agli LLM primari.
Migliora la qualità delle risposte in compiti di ragionamento tra chunk.
L'articolo è pubblicato su arXiv con identificatore 2510.10129.

Il framework CacheClip accelera RAG con il riutilizzo della KV cache

Fatti principali

Entità

Istituzioni

Fonti