TokenButler prevede i token critici nella KV-Cache dei LLM
I ricercatori hanno introdotto TokenButler, un predittore sensibile alla query che identifica i token critici nella Key-Value (KV) Cache dei Large Language Models (LLM). La KV-Cache memorizza la cronologia dei token per un decoding efficiente, ma diventa un collo di bottiglia per memoria e calcolo. Lavori precedenti mostrano che solo un piccolo sottoinsieme di token è significativo per ogni passo di decoding, ma questi token sono dinamici e dipendenti dall'input. I metodi esistenti o eliminano permanentemente i token, rischiando la qualità, o mantengono l'intera cache con sparsità basata sul recupero utilizzando proxy inaccurati. TokenButler impara a prevedere query di importanza a bassa dimensionalità a una profondità fissa, consentendo una selezione di token ad alta granularità e sensibile alla query. Il paper è disponibile su arXiv con ID 2503.07518.
Fatti principali
- TokenButler è un predittore sensibile alla query per i token critici nella KV-Cache dei LLM.
- La KV-Cache memorizza la cronologia dei token per un decoding efficiente ma diventa un collo di bottiglia.
- Solo un piccolo sottoinsieme di token contribuisce significativamente a ogni passo di decoding.
- I token critici sono dinamici e fortemente dipendenti dalla query di input.
- I metodi esistenti o eliminano permanentemente i token o utilizzano proxy inaccurati.
- TokenButler prevede query di importanza a bassa dimensionalità a una profondità fissa.
- Il paper è su arXiv con ID 2503.07518.
- TokenButler offre una selezione di token ad alta granularità e sensibile alla query.
Entità
Istituzioni
- arXiv