Rilasciati i modelli preview di DeepSeek V4, competitivi con l'AI di frontiera a costi inferiori
Il laboratorio cinese di IA DeepSeek ha rilasciato i primi modelli della serie V4 il 24 aprile 2026: DeepSeek-V4-Pro e DeepSeek-V4-Flash. Entrambi sono modelli Mixture of Experts con contesto di 1 milione di token, sotto licenza MIT. Pro ha 1,6 trilioni di parametri totali (49B attivi), diventando il modello open weights più grande, superando Kimi K2.6 (1,1T) e GLM-5.1 (754B). Flash ha 284B parametri totali (13B attivi). Pro occupa 865GB su Hugging Face; Flash 160GB. I prezzi sono significativamente inferiori rispetto ai concorrenti: Flash costa $0,14/milione di token in input e $0,28/milione in output; Pro costa $1,74/milione in input e $3,48/milione in output. DeepSeek-V4-Flash è il modello piccolo più economico, superando GPT-5.4 Nano di OpenAI; Pro è il modello grande di frontiera più economico. I miglioramenti di efficienza includono il 27% dei FLOPs per singolo token e il 10% della dimensione della cache KV per Pro a contesto 1M rispetto a V3.2, e il 10% dei FLOPs e il 7% della cache KV per Flash. I benchmark mostrano Pro competitivo con GPT-5.2 e Gemini-3.0-Pro, ma in ritardo di 3-6 mesi rispetto a GPT-5.4 e Gemini-3.1-Pro. Il team Unsloth dovrebbe rilasciare presto versioni quantizzate.
Fatti principali
- DeepSeek ha rilasciato i modelli preview V4 il 24 aprile 2026
- Due modelli: DeepSeek-V4-Pro (1,6T totali, 49B attivi) e DeepSeek-V4-Flash (284B totali, 13B attivi)
- Entrambi i modelli hanno contesto di 1 milione di token e usano architettura Mixture of Experts
- Licenziati sotto MIT
- Pro è il modello open weights più grande con 1,6T parametri
- Flash costa $0,14/milione input, $0,28/milione output; Pro costa $1,74/milione input, $3,48/milione output
- Flash è il modello piccolo più economico, Pro è il modello grande di frontiera più economico
- Efficienza: Pro usa il 27% dei FLOPs e il 10% della cache KV di V3.2 a contesto 1M; Flash usa il 10% dei FLOPs e il 7% della cache KV
- I benchmark di Pro sono competitivi con GPT-5.2 e Gemini-3.0-Pro, in ritardo di 3-6 mesi rispetto a GPT-5.4 e Gemini-3.1-Pro
- Il team Unsloth dovrebbe rilasciare versioni quantizzate
Entità
Istituzioni
- DeepSeek
- Hugging Face
- OpenAI
- Anthropic
- Gemini
- Unsloth
- OpenRouter
- Simon Willison
Luoghi
- China