Stochastic KV Routing: Condivisione Adattiva della Cache per LLM
Un nuovo articolo su arXiv (2604.22782) propone Stochastic KV Routing per ridurre l'impronta di memoria nel servizio di modelli transformer. Il metodo sfrutta la dimensione della profondità per l'ottimizzazione della cache, sostenendo che la cache completa per layer è ridondante. Introduce un'attenzione casuale tra i layer durante l'addestramento per consentire una condivisione efficiente della cache tra i layer senza perdita di informazioni, affrontando i problemi di throughput e time-to-first-token degli approcci precedenti.
Fatti principali
- L'articolo arXiv 2604.22782 propone Stochastic KV Routing
- Si concentra sulla riduzione della memoria cache KV nei transformer LLM
- Utilizza la dimensione della profondità per un'ottimizzazione ortogonale
- L'attenzione casuale tra i layer durante l'addestramento consente la condivisione della cache
- Afferma che non vi è perdita di informazioni eliminando la cache di un layer
- Affronta i problemi di throughput e latenza dei metodi precedenti
- Pubblicato su arXiv come cross submission
- Titolo: Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
Entità
Istituzioni
- arXiv