KVBuffer: Servizio IO-Aware per l'Attenzione Lineare

other · 2026-05-20

L'articolo arXiv:2605.19049 presenta KVBuffer, un meccanismo progettato per il servizio IO-aware dell'attenzione lineare. L'attenzione lineare è sempre più preferita per l'inferenza a contesto lungo grazie al suo costo di decodifica costante indipendentemente dalla lunghezza del contesto. Tuttavia, gli attuali sistemi di servizio calcolano e aggiornano ripetutamente un ampio stato di attenzione lineare a ogni passo di decodifica, causando significativi problemi di accesso alla memoria e inefficienze. KVBuffer affronta questo problema memorizzando chiavi e valori recenti, consentendo calcoli più adattabili ed efficienti. Facilita la decodifica a blocchi, minimizzando l'accesso medio alla memoria e la latenza posticipando gli aggiornamenti di stato e processandoli in batch. Inoltre, KVBuffer esegue la verifica parallela dei token bozza durante la decodifica speculativa, affrontando una limitazione importante nel servizio dei modelli di attenzione lineare.

Fatti principali

1. L'attenzione lineare ha un costo di decodifica costante rispetto alla lunghezza del contesto.
2. I sistemi di servizio esistenti calcolano e aggiornano ricorrentemente un ampio stato di attenzione lineare.
3. Lo stato è molto più grande della chiave e del valore per token.
4. La decodifica ricorrente comporta un accesso sostanziale alla memoria.
5. KVBuffer memorizza in buffer chiavi e valori recenti.
6. KVBuffer consente il calcolo a blocchi per la decodifica.
7. Il calcolo a blocchi posticipa gli aggiornamenti di stato e li applica in batch.
8. KVBuffer verifica i token bozza in parallelo per la decodifica speculativa.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20