DeepSeek-V4: Modelli MoE Open-Source con Contesto di Milioni di Token

ai-technology · 2026-04-24

DeepSeek ha svelato le edizioni di anteprima della sua serie V4, con due modelli linguistici Mixture-of-Experts: DeepSeek-V4-Pro (1,6 trilioni di parametri, 49 miliardi attivati) e DeepSeek-V4-Flash (284 miliardi di parametri, 13 miliardi attivati), entrambi in grado di gestire una lunghezza del contesto di un milione di token. Miglioramenti notevoli includono un sistema di attenzione ibrido che combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA) per una maggiore efficienza in contesti lunghi, nonché Manifold-Constrained Hyper-Connections (mHC) per una propagazione stabile del segnale e l'ottimizzatore Muon per una convergenza più rapida. Addestrati su oltre 32 trilioni di token, questi modelli seguono un processo di post-addestramento in due fasi che prevede la coltivazione di esperti specifici per dominio tramite SFT e RL con GRPO, quindi il consolidamento unificato tramite distillazione on-policy. DeepSeek-V4-Pro-Max, progettato per il massimo sforzo di ragionamento, eccelle nei benchmark di codifica e riduce il divario di prestazioni con i migliori modelli closed-source in compiti di ragionamento e agentivi. I punteggi di valutazione includono 90,1% su GPQA Diamond, 92,6% su GSM8K, 87,5% su MMLU-Pro, 55,4% su SWE-Bench Pro, 80,6% su SWE-Bench Verified e 67,9% su TerminalBench 2. I modelli sono disponibili con licenza MIT su Hugging Face, accompagnati da script Python per la codifica e decodifica in un formato compatibile con OpenAI.

Fatti principali

DeepSeek-V4-Pro ha 1,6T parametri (49B attivati); DeepSeek-V4-Flash ha 284B parametri (13B attivati).
Entrambi i modelli supportano una lunghezza del contesto di un milione di token.
L'attenzione ibrida combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA).
DeepSeek-V4-Pro richiede solo il 27% dei FLOP di inferenza a token singolo e il 10% della cache KV rispetto a DeepSeek-V3.2.
Manifold-Constrained Hyper-Connections (mHC) rafforzano le connessioni residue.
L'ottimizzatore Muon è utilizzato per una convergenza più rapida e stabilità dell'addestramento.
Pre-addestrato su oltre 32 trilioni di token; il post-addestramento utilizza un paradigma a due fasi con SFT, RL (GRPO) e distillazione on-policy.
DeepSeek-V4-Pro-Max raggiunge il 90,1% su GPQA Diamond, 92,6% su GSM8K, 87,5% su MMLU-Pro, 55,4% su SWE-Bench Pro, 80,6% su SWE-Bench Verified e 67,9% su TerminalBench 2.
Rilasciato con licenza MIT su Hugging Face.
Nessun template chat Jinja; script Python forniti per codifica compatibile con OpenAI.

Entità

Istituzioni

DeepSeek
Moonshot AI
MiniMax
OpenAI
Anthropic
Google
TechCrunch
Hugging Face

Luoghi

China
United States

Fonti

TechCrunch AI — 2026-04-24
Hacker News AI — 2026-04-24