ARTFEED — Contemporary Art Intelligence

Tensor Cache: Una Memoria a Due Livelli per la KV Cache dei Transformer

publication · 2026-05-25

Tensor Cache, una tecnica innovativa, migliora l'efficienza dei Transformer integrando l'attenzione softmax a finestra scorrevole (L1) con una memoria a peso veloce di prodotto esterno di dimensione costante (L2) che utilizza coppie KV espulse. Questa configurazione garantisce che i token più recenti mantengano un'attenzione locale precisa, mentre le coppie espulse vengono condensate in una matrice A per strato, accessibile tramite una singola moltiplicazione di matrici, sfruttando l'identità dell'attenzione lineare. Un gate scalare appreso combina le uscite, e i parametri per il decadimento per testa e il tasso di scrittura vengono addestrati in modo end-to-end. I dettagli di questo metodo sono disponibili nell'articolo arXiv numero 2605.22884.

Fatti principali

  • 1. Tensor Cache è una cache a due livelli per Transformer autoregressivi.
  • 2. L1 utilizza l'attenzione softmax a finestra scorrevole.
  • 3. L2 utilizza una memoria a peso veloce di prodotto esterno alimentata da coppie KV espulse.
  • 4. Le coppie espulse vengono compresse in una matrice A per strato.
  • 5. La lettura utilizza una singola moltiplicazione di matrici tramite l'identità dell'attenzione lineare.
  • 6. Un gate scalare appreso fonde le uscite di L1 e L2.
  • 7. I parametri di decadimento per testa e tasso di scrittura vengono addestrati end-to-end.
  • 8. L'articolo è disponibile su arXiv: 2605.22884.

Entità

Istituzioni

  • arXiv

Fonti