TokenButler prevede i token critici nella KV-Cache dei LLM

ai-technology · 2026-05-18

I ricercatori hanno introdotto TokenButler, un predittore sensibile alla query che identifica i token critici nella Key-Value (KV) Cache dei Large Language Models (LLM). La KV-Cache memorizza la cronologia dei token per un decoding efficiente, ma diventa un collo di bottiglia per memoria e calcolo. Lavori precedenti mostrano che solo un piccolo sottoinsieme di token è significativo per ogni passo di decoding, ma questi token sono dinamici e dipendenti dall'input. I metodi esistenti o eliminano permanentemente i token, rischiando la qualità, o mantengono l'intera cache con sparsità basata sul recupero utilizzando proxy inaccurati. TokenButler impara a prevedere query di importanza a bassa dimensionalità a una profondità fissa, consentendo una selezione di token ad alta granularità e sensibile alla query. Il paper è disponibile su arXiv con ID 2503.07518.

Fatti principali

TokenButler è un predittore sensibile alla query per i token critici nella KV-Cache dei LLM.
La KV-Cache memorizza la cronologia dei token per un decoding efficiente ma diventa un collo di bottiglia.
Solo un piccolo sottoinsieme di token contribuisce significativamente a ogni passo di decoding.
I token critici sono dinamici e fortemente dipendenti dalla query di input.
I metodi esistenti o eliminano permanentemente i token o utilizzano proxy inaccurati.
TokenButler prevede query di importanza a bassa dimensionalità a una profondità fissa.
Il paper è su arXiv con ID 2503.07518.
TokenButler offre una selezione di token ad alta granularità e sensibile alla query.

TokenButler prevede i token critici nella KV-Cache dei LLM

Fatti principali

Entità

Istituzioni

Fonti