NVIDIA mette a punto Cosmos Predict 2.5 con LoRA/DoRA per la generazione di video robotici
NVIDIA ha pubblicato una guida per mettere a punto il suo modello del mondo Cosmos Predict 2.5 da 2 miliardi di parametri, progettato per generare video di robot utilizzando le tecniche LoRA e DoRA. Questo modello può creare video a partire da testo, immagini o clip ed è specificamente adattato per la manipolazione robotica. Per mitigare gli alti costi e il rischio di dimenticanza associati al fine-tuning completo, LoRA e DoRA utilizzano piccoli adattatori addestrabili all'interno di strati congelati, consentendo l'addestramento su una singola GPU. La guida incorpora le librerie diffusers e accelerate, richiedendo almeno una GPU da 80 GB, preferibilmente 8× H100. L'addestramento coinvolge 92 video di manipolazione robotica e 50 coppie (prompt, immagine), mostrando metriche migliorate dopo 100 epoche. Questa guida fa parte del Cosmos Cookbook di NVIDIA, disponibile su Hugging Face e GitHub.
Fatti principali
- NVIDIA Cosmos Predict 2.5 è un modello del mondo su larga scala per generare video fisicamente plausibili.
- LoRA e DoRA consentono un fine-tuning efficiente in termini di parametri su una singola GPU.
- Dataset di addestramento: 92 video di manipolazione robotica con prompt testuali.
- Dataset di test: 50 coppie (prompt, immagine).
- L'addestramento per 100 epoche su 8× H100 richiede circa 2,5 ore.
- Il fine-tuning migliora l'Errore di Sampson, la plausibilità fisica e l'aderenza alle istruzioni.
- LoRA con rango 32 migliora l'aderenza alle istruzioni; rango 8 è sufficiente per la coerenza geometrica.
- DoRA può stabilizzare l'addestramento a ranghi bassi.
Entità
Istituzioni
- NVIDIA
- Hugging Face
- GitHub