TTKV: Cache KV ispirato alla memoria umana per LLM a contesto lungo
Un team di ricercatori ha introdotto TTKV, un framework per la gestione delle cache key-value nei grandi modelli linguistici che emula la memoria umana. TTKV organizza la cache KV in diversi livelli temporali, ciascuno con capacità e precisioni variabili. Affronta la disposizione dei livelli separando la veloce HBM dalla più lenta DRAM, gestisce il contenuto dei livelli collocando gli stati KV recenti in livelli più rapidi in base alla loro vicinanza temporale e migliora le interazioni tra i livelli. Questa strategia mira a minimizzare l'impronta di memoria che scala con la lunghezza del contesto, una sfida significativa nell'inferenza di LLM a contesto lungo. I risultati sono pubblicati nel preprint arXiv 2604.19769.
Fatti principali
- TTKV è un framework di gestione della cache KV per LLM.
- È ispirato ai sistemi di memoria umana.
- La cache KV è suddivisa in livelli temporali.
- I livelli hanno capacità e precisione eterogenee.
- La disposizione dei livelli disaccoppia la veloce HBM e la lenta DRAM.
- Gli stati KV recenti sono assegnati a livelli più veloci e di maggiore precisione.
- L'approccio affronta la scalabilità dell'impronta di memoria con la lunghezza del contesto.
- L'articolo è su arXiv con ID 2604.19769.
Entità
Istituzioni
- arXiv