ArborKV: Gestione della Cache KV Consapevole della Struttura per il Ragionamento LLM ad Albero
Un recente studio pubblicato su arXiv (2605.22106) presenta ArborKV, un framework di evizione della cache Key-Value (KV) che è consapevole della struttura, volto a mitigare i limiti di memoria nel ragionamento LLM Tree-of-Thoughts (ToT). In ToT, l'inferenza è strutturata come una ricerca ad albero che coinvolge ramificazioni e backtracking; tuttavia, mantenere gli stati KV per una frontiera di traiettorie incomplete rappresenta una sfida di memoria. ArborKV sfrutta le dinamiche di ricerca: la decodifica immediata si basa sul ramo corrente e sui suoi predecessori, mentre i sottoalberi inattivi, che hanno una bassa probabilità di riutilizzo a breve termine, devono comunque essere recuperabili. Questo framework integra uno stimatore di valore leggero con una strategia di allocazione focalizzata sull'albero per l'evizione, facilitando una maggiore profondità e larghezza di ricerca entro vincoli hardware fissi.
Fatti principali
- 1. L'articolo arXiv:2605.22106 propone ArborKV.
- 2. ArborKV è un framework di evizione della cache KV consapevole della struttura.
- 3. Tree-of-Thoughts (ToT) organizza l'inferenza come ricerca strutturata ad albero.
- 4. La conservazione della cache KV per traiettorie parziali crea colli di bottiglia di memoria.
- 5. ArborKV utilizza uno stimatore di valore leggero e un'allocazione consapevole dell'albero.
- 6. I sottoalberi inattivi hanno una bassa probabilità di riutilizzo a breve termine.
- 7. Il ramo attivo e i suoi antenati sono prioritari per la decodifica.
- 8. ArborKV mira ad aumentare la profondità e la larghezza della ricerca sotto budget hardware fissi.
Entità
Istituzioni
- arXiv