LaProx: Evizione della Cache KV Consapevole dell'Output per LLM a Contesto Lungo
I ricercatori hanno ridefinito l'evizione della cache KV per l'inferenza di LLM a contesto lungo, inquadrandola come un problema di approssimazione della moltiplicazione matriciale a livello di layer, consapevole dell'output. Le tecniche attuali dipendono dai pesi di attenzione locali e trascurano le rappresentazioni dei valori, le proiezioni di output e le interazioni tra teste. LaProx cattura esplicitamente le relazioni moltiplicative tra mappe di attenzione e stati dei valori proiettati per valutare i contributi dei token, considerando le dipendenze tra teste. Presenta una nuova strategia di evizione unificata che assegna punteggi di importanza globalmente comparabili, facilitando la selezione a livello di modello anziché scelte localizzate e specifiche per testa. Questo metodo minimizza efficacemente sia l'uso della memoria che il sovraccarico di runtime durante l'inferenza a contesto lungo.
Fatti principali
- 1. arXiv:2605.07234v1
- 2. Riformula l'evizione della cache KV come approssimazione della moltiplicazione matriciale a livello di layer, consapevole dell'output
- 3. I metodi esistenti trascurano le rappresentazioni dei valori, la proiezione di output e le interazioni tra teste
- 4. LaProx modella l'interazione moltiplicativa tra mappe di attenzione e stati dei valori proiettati
- 5. Prima strategia di evizione unificata con punteggi di importanza globalmente comparabili
- 6. Consente la selezione dei token a livello di modello anziché decisioni locali e per testa
- 7. Riduce il sovraccarico di memoria e runtime per l'inferenza di LLM a contesto lungo
Entità
—