KVBuffer: Servizio IO-Aware per l'Attenzione Lineare
L'articolo arXiv:2605.19049 presenta KVBuffer, un meccanismo progettato per il servizio IO-aware dell'attenzione lineare. L'attenzione lineare è sempre più preferita per l'inferenza a contesto lungo grazie al suo costo di decodifica costante indipendentemente dalla lunghezza del contesto. Tuttavia, gli attuali sistemi di servizio calcolano e aggiornano ripetutamente un ampio stato di attenzione lineare a ogni passo di decodifica, causando significativi problemi di accesso alla memoria e inefficienze. KVBuffer affronta questo problema memorizzando chiavi e valori recenti, consentendo calcoli più adattabili ed efficienti. Facilita la decodifica a blocchi, minimizzando l'accesso medio alla memoria e la latenza posticipando gli aggiornamenti di stato e processandoli in batch. Inoltre, KVBuffer esegue la verifica parallela dei token bozza durante la decodifica speculativa, affrontando una limitazione importante nel servizio dei modelli di attenzione lineare.
Fatti principali
- 1. L'attenzione lineare ha un costo di decodifica costante rispetto alla lunghezza del contesto.
- 2. I sistemi di servizio esistenti calcolano e aggiornano ricorrentemente un ampio stato di attenzione lineare.
- 3. Lo stato è molto più grande della chiave e del valore per token.
- 4. La decodifica ricorrente comporta un accesso sostanziale alla memoria.
- 5. KVBuffer memorizza in buffer chiavi e valori recenti.
- 6. KVBuffer consente il calcolo a blocchi per la decodifica.
- 7. Il calcolo a blocchi posticipa gli aggiornamenti di stato e li applica in batch.
- 8. KVBuffer verifica i token bozza in parallelo per la decodifica speculativa.
Entità
—