Tensor Cache: Una Memoria a Due Livelli per la KV Cache dei Transformer

publication · 2026-05-25

Tensor Cache, una tecnica innovativa, migliora l'efficienza dei Transformer integrando l'attenzione softmax a finestra scorrevole (L1) con una memoria a peso veloce di prodotto esterno di dimensione costante (L2) che utilizza coppie KV espulse. Questa configurazione garantisce che i token più recenti mantengano un'attenzione locale precisa, mentre le coppie espulse vengono condensate in una matrice A per strato, accessibile tramite una singola moltiplicazione di matrici, sfruttando l'identità dell'attenzione lineare. Un gate scalare appreso combina le uscite, e i parametri per il decadimento per testa e il tasso di scrittura vengono addestrati in modo end-to-end. I dettagli di questo metodo sono disponibili nell'articolo arXiv numero 2605.22884.

Fatti principali

1. Tensor Cache è una cache a due livelli per Transformer autoregressivi.
2. L1 utilizza l'attenzione softmax a finestra scorrevole.
3. L2 utilizza una memoria a peso veloce di prodotto esterno alimentata da coppie KV espulse.
4. Le coppie espulse vengono compresse in una matrice A per strato.
5. La lettura utilizza una singola moltiplicazione di matrici tramite l'identità dell'attenzione lineare.
6. Un gate scalare appreso fonde le uscite di L1 e L2.
7. I parametri di decadimento per testa e tasso di scrittura vengono addestrati end-to-end.
8. L'articolo è disponibile su arXiv: 2605.22884.

Tensor Cache: Una Memoria a Due Livelli per la KV Cache dei Transformer

Fatti principali

Entità

Istituzioni

Fonti