LaProx: Evizione della Cache KV Consapevole dell'Output per LLM a Contesto Lungo

ai-technology · 2026-05-11

I ricercatori hanno ridefinito l'evizione della cache KV per l'inferenza di LLM a contesto lungo, inquadrandola come un problema di approssimazione della moltiplicazione matriciale a livello di layer, consapevole dell'output. Le tecniche attuali dipendono dai pesi di attenzione locali e trascurano le rappresentazioni dei valori, le proiezioni di output e le interazioni tra teste. LaProx cattura esplicitamente le relazioni moltiplicative tra mappe di attenzione e stati dei valori proiettati per valutare i contributi dei token, considerando le dipendenze tra teste. Presenta una nuova strategia di evizione unificata che assegna punteggi di importanza globalmente comparabili, facilitando la selezione a livello di modello anziché scelte localizzate e specifiche per testa. Questo metodo minimizza efficacemente sia l'uso della memoria che il sovraccarico di runtime durante l'inferenza a contesto lungo.

Fatti principali

1. arXiv:2605.07234v1
2. Riformula l'evizione della cache KV come approssimazione della moltiplicazione matriciale a livello di layer, consapevole dell'output
3. I metodi esistenti trascurano le rappresentazioni dei valori, la proiezione di output e le interazioni tra teste
4. LaProx modella l'interazione moltiplicativa tra mappe di attenzione e stati dei valori proiettati
5. Prima strategia di evizione unificata con punteggi di importanza globalmente comparabili
6. Consente la selezione dei token a livello di modello anziché decisioni locali e per testa
7. Riduce il sovraccarico di memoria e runtime per l'inferenza di LLM a contesto lungo

Entità

—

Fonti

arXiv cs.AI — 2026-05-11