Progressi nell'architettura LLM: KV Sharing, mHC e Attenzione Compressa
I modelli Gemma 4 di Google introducono la condivisione KV tra layer e gli embedding per layer (PLE) per ridurre la memoria e aumentare la capacità. Gemma 4 E2B ha 35 layer, di cui solo i primi 15 calcolano le proprie proiezioni KV; gli ultimi 20 riutilizzano i tensori KV, risparmiando circa 2,7 GB con contesto 128K. PLE aggiunge vettori token specifici per layer senza scalare il trasformatore principale. ZAYA1-8B utilizza attenzione convoluzionale compressa per ridurre la dimensione della cache KV. Laguna XS.2 implementa un budget di attenzione per layer. DeepSeek V4 introduce mHC (compressione multi-head) e attenzione compressa. Questi progetti mirano all'efficienza per contesti lunghi nei modelli di ragionamento e nei flussi di lavoro degli agenti.
Fatti principali
- 1. Gemma 4 E2B ha 35 layer trasformatore; 15 calcolano KV propri, 20 riutilizzano.
- 2. La condivisione KV risparmia circa 2,7 GB in bfloat16 per contesto 128K in E2B.
- 3. Gemma 4 E4B ha 42 layer; 24 calcolano KV propri, 18 condividono.
- 4. PLE aggiunge fette di embedding per layer per aumentare la capacità senza scalare il trasformatore.
- 5. ZAYA1-8B utilizza attenzione convoluzionale compressa.
- 6. Laguna XS.2 utilizza un budget di attenzione per layer.
- 7. DeepSeek V4 utilizza mHC e attenzione compressa.
- 8. Tutti i progetti si concentrano sulla riduzione della dimensione della cache KV per contesti lunghi.
Entità
Artisti
- Sebastian Raschka
Istituzioni
- Ahead of AI