Stochastic KV Routing: Condivisione Adattiva della Cache per LLM

ai-technology · 2026-04-29

Un nuovo articolo su arXiv (2604.22782) propone Stochastic KV Routing per ridurre l'impronta di memoria nel servizio di modelli transformer. Il metodo sfrutta la dimensione della profondità per l'ottimizzazione della cache, sostenendo che la cache completa per layer è ridondante. Introduce un'attenzione casuale tra i layer durante l'addestramento per consentire una condivisione efficiente della cache tra i layer senza perdita di informazioni, affrontando i problemi di throughput e time-to-first-token degli approcci precedenti.

Fatti principali

L'articolo arXiv 2604.22782 propone Stochastic KV Routing
Si concentra sulla riduzione della memoria cache KV nei transformer LLM
Utilizza la dimensione della profondità per un'ottimizzazione ortogonale
L'attenzione casuale tra i layer durante l'addestramento consente la condivisione della cache
Afferma che non vi è perdita di informazioni eliminando la cache di un layer
Affronta i problemi di throughput e latenza dei metodi precedenti
Pubblicato su arXiv come cross submission
Titolo: Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Stochastic KV Routing: Condivisione Adattiva della Cache per LLM

Fatti principali

Entità

Istituzioni

Fonti