NVIDIA Nemotron 3 Nano Omni: AI multimodale per documenti, audio e video
NVIDIA ha presentato Nemotron 3 Nano Omni, un modello versatile progettato per analizzare documenti, ragionare con immagini, riconoscere il parlato, comprendere contenuti audio-video e svolgere compiti di ragionamento generale. Questo nuovo membro della serie Nemotron integra testo, immagini, video e audio, raggiungendo un'accuratezza leader nei benchmark come MMlongbench-Doc e VoiceBench, e si distingue come il modello video aperto più conveniente su MediaPerf. La sua architettura combina un backbone ibrido Mamba-Transformer con un encoder visivo C-RADIOv4-H. I progressi chiave includono l'elaborazione a risoluzione dinamica, la compressione temporale Conv3D e il campionamento video efficiente, con un throughput fino a 9 volte superiore e un ragionamento 2,9 volte più veloce. L'addestramento è stato condotto utilizzando allineamento multimodale e apprendimento per rinforzo su cluster NVIDIA H100 e B200, con checkpoint disponibili su HuggingFace.
Fatti principali
- 1. NVIDIA Nemotron 3 Nano Omni è un nuovo modello di comprensione omni-modale.
- 2. Raggiunge la massima accuratezza su MMlongbench-Doc, OCRBenchV2, WorldSense, DailyOmni e VoiceBench.
- 3. È il modello video aperto più conveniente su MediaPerf.
- 4. L'architettura utilizza un backbone ibrido Mamba-Transformer MoE con encoder visivo C-RADIOv4-H e encoder audio Parakeet-TDT-0.6B-v2.
- 5. La risoluzione dinamica supporta da 1.024 a 13.312 patch visive per immagine.
- 6. L'embedding Conv3D tubelet fonde fotogrammi video consecutivi per ridurre i token.
- 7. EVS elimina i token video ridondanti durante l'inferenza.
- 8. L'input audio può durare fino a 20 minuti, con contesto LLM che supporta oltre 5 ore.
- 9. L'addestramento ha utilizzato allineamento multimodale a stadi, estensione del contesto, ottimizzazione delle preferenze e RL.
- 10. I checkpoint sono disponibili su HuggingFace nei formati BF16, FP8 e NVFP4.
Entità
Istituzioni
- NVIDIA
- HuggingFace
- Megatron-LM
- Transformer Engine
- Megatron Energon
- NeMo-RL
- NeMo Gym
- Nemo-Gym
- NeMo Data Designer
- MediaPerf
- MMlongBench-Doc
- OCRBenchV2
- WorldSense
- DailyOmni
- VoiceBench