DeepSeek V3, OLMo 2 e lo stato dell'architettura LLM nel 2025
Sette anni dopo GPT-2, le architetture dei grandi modelli linguistici rimangono strutturalmente simili, ma sono emersi perfezionamenti chiave. DeepSeek V3 (671B parametri, Dic 2024) utilizza l'attenzione latente multi-testa (MLA) e il mixture-of-experts (MoE) con 256 esperti e un esperto condiviso, attivando solo 37B parametri per token. MLA comprime i tensori chiave/valore per l'efficienza della cache KV, superando l'attenzione a query raggruppata nelle prestazioni di modellazione secondo gli ablations di DeepSeek-V2. OLMo 2 (Allen Institute for AI, Gen 2025) adotta un posizionamento Post-Norm dei layer RMSNorm (all'interno delle connessioni residue) e aggiunge QK-Norm, migliorando la stabilità dell'addestramento. Mantiene l'attenzione multi-testa standard anziché GQA o MLA. L'articolo confronta questi e altri modelli del 2025 (Llama 4, Gemma 4, Qwen 3) concentrandosi su scelte architetturali come embedding posizionali (RoPE), funzioni di attivazione (SwiGLU) e strategie di normalizzazione.
Fatti principali
- DeepSeek V3 ha 671 miliardi di parametri totali ma ne attiva solo 37 miliardi per token tramite MoE.
- DeepSeek V3 utilizza l'attenzione latente multi-testa (MLA) invece dell'attenzione a query raggruppata.
- MLA comprime i tensori chiave e valore in uno spazio a dimensione inferiore per l'efficienza della cache KV.
- OLMo 2 utilizza Post-Norm (RMSNorm dopo attenzione e FFN) all'interno delle connessioni residue.
- OLMo 2 aggiunge QK-Norm per la stabilità dell'addestramento.
- OLMo 2 utilizza ancora l'attenzione multi-testa standard (MHA).
- DeepSeek V3 ha 256 esperti per modulo MoE più un esperto condiviso.
- L'articolo è stato aggiornato l'ultima volta il 2 aprile 2026 (aggiunto Gemma 4).
Entità
Artisti
- Sebastian Raschka
Istituzioni
- Allen Institute for AI
- Substack