Progressi nell'architettura LLM: KV Sharing, mHC e Attenzione Compressa

ai-technology · 2026-05-16

I modelli Gemma 4 di Google introducono la condivisione KV tra layer e gli embedding per layer (PLE) per ridurre la memoria e aumentare la capacità. Gemma 4 E2B ha 35 layer, di cui solo i primi 15 calcolano le proprie proiezioni KV; gli ultimi 20 riutilizzano i tensori KV, risparmiando circa 2,7 GB con contesto 128K. PLE aggiunge vettori token specifici per layer senza scalare il trasformatore principale. ZAYA1-8B utilizza attenzione convoluzionale compressa per ridurre la dimensione della cache KV. Laguna XS.2 implementa un budget di attenzione per layer. DeepSeek V4 introduce mHC (compressione multi-head) e attenzione compressa. Questi progetti mirano all'efficienza per contesti lunghi nei modelli di ragionamento e nei flussi di lavoro degli agenti.

Fatti principali

1. Gemma 4 E2B ha 35 layer trasformatore; 15 calcolano KV propri, 20 riutilizzano.
2. La condivisione KV risparmia circa 2,7 GB in bfloat16 per contesto 128K in E2B.
3. Gemma 4 E4B ha 42 layer; 24 calcolano KV propri, 18 condividono.
4. PLE aggiunge fette di embedding per layer per aumentare la capacità senza scalare il trasformatore.
5. ZAYA1-8B utilizza attenzione convoluzionale compressa.
6. Laguna XS.2 utilizza un budget di attenzione per layer.
7. DeepSeek V4 utilizza mHC e attenzione compressa.
8. Tutti i progetti si concentrano sulla riduzione della dimensione della cache KV per contesti lunghi.

Entità

Artisti

Sebastian Raschka

Istituzioni

Google
Ahead of AI

Fonti

Sebastian Raschka — 2026-05-16