I modelli di diffusione NVIDIA Nemotron-Labs consentono una generazione di testo alla velocità della luce
NVIDIA ha rilasciato Nemotron-Labs Diffusion, una famiglia di modelli linguistici di diffusione (DLM) che generano più token in parallelo e li raffinano iterativamente, offrendo una generazione di token fino a 6,4× più veloce rispetto ai modelli autoregressivi. I modelli sono disponibili in scale 3B, 8B e 14B con licenza NVIDIA Nemotron Open Model License, più un modello visione-linguaggio da 8B con licenza NVIDIA Source Code License. Supportano tre modalità di inferenza: autoregressiva, diffusione e auto-speculazione, quest'ultima combina bozza e verifica per un'accelerazione senza perdite. Il modello 8B raggiunge una precisione media superiore dell'1,2% rispetto a Qwen3 8B, con la modalità diffusione che raggiunge 2,6× token per forward pass e l'auto-speculazione fino a 6,4×. L'addestramento ha utilizzato 1,3T token dai dataset di pre-addestramento NVIDIA Nemotron e 45B token dai dataset post-addestramento, basandosi sull'approccio Efficient-DLM che converte modelli AR pre-addestrati in DLM. Il deployment tramite SGLang consente di cambiare modalità con una singola riga di configurazione. L'auto-speculazione su hardware B200 raggiunge ~865 tok/s su speedbench, circa 4× la baseline autoregressiva. Il rilascio include varianti chat base e istruite, codice di addestramento tramite il framework NVIDIA Megatron Bridge e un report tecnico.
Fatti principali
- Nemotron-Labs Diffusion genera più token in parallelo e li raffina iterativamente.
- Modelli disponibili in scale 3B, 8B e 14B con licenza NVIDIA Nemotron Open Model License.
- Modello visione-linguaggio da 8B disponibile con licenza NVIDIA Source Code License.
- Supporta modalità di inferenza autoregressiva, diffusione e auto-speculazione.
- Il modello 8B raggiunge una precisione media superiore dell'1,2% rispetto a Qwen3 8B.
- La modalità diffusione raggiunge 2,6× token per forward pass; auto-speculazione fino a 6,4×.
- L'auto-speculazione su B200 raggiunge ~865 tok/s su speedbench, ~4× baseline AR.
- Addestrato su 1,3T token dai dataset di pre-addestramento NVIDIA Nemotron e 45B token dai dataset post-addestramento.
Entità
Istituzioni
- NVIDIA
- HuggingFace
- GitHub
- SGLang