Diagnostica a Contratto Fisso per la Compressione della Cache KV nei LLM

other · 2026-05-12

I ricercatori hanno svelato una nuova tecnica diagnostica volta ad affrontare le sfide poste dall'evizione della cache key-value basata sul valore nelle inferenze di modelli linguistici di grandi dimensioni con contesto esteso. Descritta in una recente pubblicazione su arXiv, questo metodo scopre tre tipi principali di fallimenti: prove insufficienti, punteggi alti irrilevanti e prove correlate errate. Stabilizzando il selettore mentre si modifica iterativamente uno slot decisionale, l'approccio combina la forza dell'attenzione con le variazioni nei risultati previsti. I test condotti su LongBench con due budget e tre modelli hanno dimostrato un'identificazione riuscita del 72,6% delle celle a margine positivo. Inoltre, NeedleBench M-RT a 32k supporta robustamente la chiusura durante i processi di recupero ramificato.

Fatti principali

1. arXiv:2605.08234 introduce una diagnostica a contratto fisso per la compressione della cache KV.
2. La diagnostica identifica tre modalità di fallimento: prove mancanti, punteggi alti irrilevanti e prove correlate interrotte.
3. La sonda combina la massa di attenzione di un blocco con la variazione di output stimata dalla sua rimozione.
4. Su LongBench con tre modelli e due budget, la sonda è positiva sul 72,6% delle celle a margine positivo.
5. La sonda è positiva sul 32,4% delle celle a margine non positivo.
6. NeedleBench M-RT a 32k supporta la chiusura sotto recupero ramificato.
7. Un controllo della sonda RULER 8k supporta la chiusura sotto recupero ramificato.
8. Il metodo mantiene fisso l'assetto del selettore e cambia uno slot decisionale alla volta.

Diagnostica a Contratto Fisso per la Compressione della Cache KV nei LLM

Fatti principali

Entità

Istituzioni

Fonti