NVIDIA mette a punto Cosmos Predict 2.5 con LoRA/DoRA per la generazione di video robotici

ai-technology · 2026-05-18

NVIDIA ha pubblicato una guida per mettere a punto il suo modello del mondo Cosmos Predict 2.5 da 2 miliardi di parametri, progettato per generare video di robot utilizzando le tecniche LoRA e DoRA. Questo modello può creare video a partire da testo, immagini o clip ed è specificamente adattato per la manipolazione robotica. Per mitigare gli alti costi e il rischio di dimenticanza associati al fine-tuning completo, LoRA e DoRA utilizzano piccoli adattatori addestrabili all'interno di strati congelati, consentendo l'addestramento su una singola GPU. La guida incorpora le librerie diffusers e accelerate, richiedendo almeno una GPU da 80 GB, preferibilmente 8× H100. L'addestramento coinvolge 92 video di manipolazione robotica e 50 coppie (prompt, immagine), mostrando metriche migliorate dopo 100 epoche. Questa guida fa parte del Cosmos Cookbook di NVIDIA, disponibile su Hugging Face e GitHub.

Fatti principali

NVIDIA Cosmos Predict 2.5 è un modello del mondo su larga scala per generare video fisicamente plausibili.
LoRA e DoRA consentono un fine-tuning efficiente in termini di parametri su una singola GPU.
Dataset di addestramento: 92 video di manipolazione robotica con prompt testuali.
Dataset di test: 50 coppie (prompt, immagine).
L'addestramento per 100 epoche su 8× H100 richiede circa 2,5 ore.
Il fine-tuning migliora l'Errore di Sampson, la plausibilità fisica e l'aderenza alle istruzioni.
LoRA con rango 32 migliora l'aderenza alle istruzioni; rango 8 è sufficiente per la coerenza geometrica.
DoRA può stabilizzare l'addestramento a ranghi bassi.

NVIDIA mette a punto Cosmos Predict 2.5 con LoRA/DoRA per la generazione di video robotici

Fatti principali

Entità

Istituzioni

Fonti