Diagnostica a Contratto Fisso per la Compressione della Cache KV nei LLM
I ricercatori hanno svelato una nuova tecnica diagnostica volta ad affrontare le sfide poste dall'evizione della cache key-value basata sul valore nelle inferenze di modelli linguistici di grandi dimensioni con contesto esteso. Descritta in una recente pubblicazione su arXiv, questo metodo scopre tre tipi principali di fallimenti: prove insufficienti, punteggi alti irrilevanti e prove correlate errate. Stabilizzando il selettore mentre si modifica iterativamente uno slot decisionale, l'approccio combina la forza dell'attenzione con le variazioni nei risultati previsti. I test condotti su LongBench con due budget e tre modelli hanno dimostrato un'identificazione riuscita del 72,6% delle celle a margine positivo. Inoltre, NeedleBench M-RT a 32k supporta robustamente la chiusura durante i processi di recupero ramificato.
Fatti principali
- 1. arXiv:2605.08234 introduce una diagnostica a contratto fisso per la compressione della cache KV.
- 2. La diagnostica identifica tre modalità di fallimento: prove mancanti, punteggi alti irrilevanti e prove correlate interrotte.
- 3. La sonda combina la massa di attenzione di un blocco con la variazione di output stimata dalla sua rimozione.
- 4. Su LongBench con tre modelli e due budget, la sonda è positiva sul 72,6% delle celle a margine positivo.
- 5. La sonda è positiva sul 32,4% delle celle a margine non positivo.
- 6. NeedleBench M-RT a 32k supporta la chiusura sotto recupero ramificato.
- 7. Un controllo della sonda RULER 8k supporta la chiusura sotto recupero ramificato.
- 8. Il metodo mantiene fisso l'assetto del selettore e cambia uno slot decisionale alla volta.
Entità
Istituzioni
- arXiv