ARTFEED — Contemporary Art Intelligence

KVBuffer: Servizio IO-Aware per l'Attenzione Lineare

other · 2026-05-20

L'articolo arXiv:2605.19049 presenta KVBuffer, un meccanismo progettato per il servizio IO-aware dell'attenzione lineare. L'attenzione lineare è sempre più preferita per l'inferenza a contesto lungo grazie al suo costo di decodifica costante indipendentemente dalla lunghezza del contesto. Tuttavia, gli attuali sistemi di servizio calcolano e aggiornano ripetutamente un ampio stato di attenzione lineare a ogni passo di decodifica, causando significativi problemi di accesso alla memoria e inefficienze. KVBuffer affronta questo problema memorizzando chiavi e valori recenti, consentendo calcoli più adattabili ed efficienti. Facilita la decodifica a blocchi, minimizzando l'accesso medio alla memoria e la latenza posticipando gli aggiornamenti di stato e processandoli in batch. Inoltre, KVBuffer esegue la verifica parallela dei token bozza durante la decodifica speculativa, affrontando una limitazione importante nel servizio dei modelli di attenzione lineare.

Fatti principali

  • 1. L'attenzione lineare ha un costo di decodifica costante rispetto alla lunghezza del contesto.
  • 2. I sistemi di servizio esistenti calcolano e aggiornano ricorrentemente un ampio stato di attenzione lineare.
  • 3. Lo stato è molto più grande della chiave e del valore per token.
  • 4. La decodifica ricorrente comporta un accesso sostanziale alla memoria.
  • 5. KVBuffer memorizza in buffer chiavi e valori recenti.
  • 6. KVBuffer consente il calcolo a blocchi per la decodifica.
  • 7. Il calcolo a blocchi posticipa gli aggiornamenti di stato e li applica in batch.
  • 8. KVBuffer verifica i token bozza in parallelo per la decodifica speculativa.

Entità

Fonti