DeepSeek-V4: Modello con Contesto di Milioni di Token Ottimizzato per Carichi di Lavoro Agentici

ai-technology · 2026-04-24

DeepSeek ha presentato V4, una suite di modelli AI open-weight progettati per compiti agentici prolungati, affrontando efficacemente i problemi legati alla cache KV e ai limiti del budget di contesto. Questa nuova architettura incorpora attenzione ibrida, con Attenzione Sparsa Compressa (CSA) che ottiene una riduzione di 4x delle voci KV, mentre l'Attenzione Fortemente Compressa (HCA) vanta una compressione di 128x. Rispetto a V3.2, V4-Pro utilizza solo il 27% dei FLOP di inferenza a token singolo e il 10% della memoria cache KV, mentre V4-Flash opera al 10% dei FLOP e al 7% della cache KV. I benchmark indicano che V4-Pro-Max ha ottenuto punteggi di 67,9 su Terminal Bench 2.0 e 80,6 su SWE Verified. Un sondaggio ha rivelato che il 52% di 85 sviluppatori DeepSeek ritiene che V4-Pro sia pronto per succedere al loro principale modello di codifica. Quattro checkpoint sono accessibili su Hugging Face.

Fatti principali

DeepSeek-V4 introduce attenzione ibrida con CSA (compressione 4x) e HCA (compressione 128x) per ridurre la cache KV e i FLOP.
V4-Pro richiede il 27% dei FLOP di inferenza a token singolo e il 10% della cache KV rispetto a V3.2; V4-Flash scende al 10% dei FLOP e al 7% della cache KV.
V4 utilizza circa il 2% della memoria cache KV dell'attenzione a query raggruppate con 8 teste in bfloat16.
Il pensiero interleaved preserva il ragionamento tra i turni dell'utente quando sono presenti chiamate a strumenti.
Il nuovo schema di chiamata a strumenti utilizza il token |DSML| e il formato XML per ridurre gli errori di escaping.
La piattaforma sandbox DSec consente l'addestramento RL con caricamento rapido delle immagini e replay a prova di prelazione.
V4-Pro-Max ottiene 80,6 su SWE Verified, a un punto da Opus-4.6-Max e Gemini-3.1-Pro.
Rilasciati quattro checkpoint: V4-Pro (1,6T/49B attivati) e V4-Flash (284B/13B attivati), ciascuno con versioni instruct e base.

DeepSeek-V4: Modello con Contesto di Milioni di Token Ottimizzato per Carichi di Lavoro Agentici

Fatti principali

Entità

Istituzioni

Fonti