ARTFEED — Contemporary Art Intelligence

NVIDIA Lancia Cosmos 3, il Primo Omni-Modello Aperto per l'IA Fisica

ai-technology · 2026-06-01

NVIDIA ha rilasciato Cosmos 3, un omni-modello aperto per il ragionamento e l'azione nell'IA fisica, basato su un'architettura Mixture-of-Transformers (MoT). A differenza delle versioni precedenti di Cosmos che richiedevano modelli separati per la generazione del mondo, la generazione controllata, la comprensione della scena e la generazione di policy, Cosmos 3 unifica queste capacità in un unico modello. Elabora le modalità testo, immagine, video, audio e azione all'interno di una singola architettura, utilizzando encoder dedicati (ViT per la comprensione visiva, VAE per la generazione visiva/audio, vettori specifici del dominio per le azioni) e uno spazio di rappresentazione condiviso. La sequenza di input si divide in una sottosequenza autoregressiva per il ragionamento e una sottosequenza di diffusione per la generazione, che interagiscono tramite attenzione congiunta. Sono disponibili due dimensioni del modello: Cosmos 3 Nano (8B parametri) per workstation come la GPU RTX PRO 6000, e Cosmos 3 Super (32B parametri) per la generazione di dati sintetici su larga scala su GPU NVIDIA Hopper e Blackwell. Entrambi sono ospitati su Hugging Face. Cosmos 3 supporta la generazione di video da prompt narrativi dettagliati e la generazione di azioni da prompt spaziali concisi. Si integra con la libreria Hugging Face Diffusers tramite Cosmos3OmniPipeline. NVIDIA rilascia anche dataset di generazione di dati sintetici per l'addestramento dell'IA fisica. Il Cosmos Framework fornisce script di addestramento e servizio end-to-end, inclusi strumenti di post-addestramento e abilità degli agenti. Le applicazioni includono robotica, veicoli autonomi e spazi intelligenti.

Fatti principali

  • Cosmos 3 è il primo omni-modello aperto per il ragionamento e l'azione nell'IA fisica.
  • Utilizza un'architettura Mixture-of-Transformers (MoT).
  • Due dimensioni del modello: Cosmos 3 Nano (8B parametri) e Cosmos 3 Super (32B parametri).
  • Disponibile su Hugging Face come nvidia/Cosmos3-Nano e nvidia/Cosmos3-Super.
  • Si integra con Hugging Face Diffusers tramite Cosmos3OmniPipeline.
  • Supporta le modalità testo, immagine, video, audio e azione.
  • NVIDIA rilascia dataset di generazione di dati sintetici per l'IA fisica.
  • Le applicazioni includono robotica, veicoli autonomi e spazi intelligenti.

Entità

Istituzioni

  • NVIDIA
  • Hugging Face

Fonti