ArborKV: Gestione della Cache KV Consapevole della Struttura per il Ragionamento LLM ad Albero

ai-technology · 2026-05-23

Un recente studio pubblicato su arXiv (2605.22106) presenta ArborKV, un framework di evizione della cache Key-Value (KV) che è consapevole della struttura, volto a mitigare i limiti di memoria nel ragionamento LLM Tree-of-Thoughts (ToT). In ToT, l'inferenza è strutturata come una ricerca ad albero che coinvolge ramificazioni e backtracking; tuttavia, mantenere gli stati KV per una frontiera di traiettorie incomplete rappresenta una sfida di memoria. ArborKV sfrutta le dinamiche di ricerca: la decodifica immediata si basa sul ramo corrente e sui suoi predecessori, mentre i sottoalberi inattivi, che hanno una bassa probabilità di riutilizzo a breve termine, devono comunque essere recuperabili. Questo framework integra uno stimatore di valore leggero con una strategia di allocazione focalizzata sull'albero per l'evizione, facilitando una maggiore profondità e larghezza di ricerca entro vincoli hardware fissi.

Fatti principali

1. L'articolo arXiv:2605.22106 propone ArborKV.
2. ArborKV è un framework di evizione della cache KV consapevole della struttura.
3. Tree-of-Thoughts (ToT) organizza l'inferenza come ricerca strutturata ad albero.
4. La conservazione della cache KV per traiettorie parziali crea colli di bottiglia di memoria.
5. ArborKV utilizza uno stimatore di valore leggero e un'allocazione consapevole dell'albero.
6. I sottoalberi inattivi hanno una bassa probabilità di riutilizzo a breve termine.
7. Il ramo attivo e i suoi antenati sono prioritari per la decodifica.
8. ArborKV mira ad aumentare la profondità e la larghezza della ricerca sotto budget hardware fissi.

ArborKV: Gestione della Cache KV Consapevole della Struttura per il Ragionamento LLM ad Albero

Fatti principali

Entità

Istituzioni

Fonti