Sword Framework migliora la robustezza del World Model per l'addestramento delle policy VLA
I ricercatori propongono Sword, un robusto framework World Model per affrontare la scarsa generalizzazione e l'accumulo di errori a lungo orizzonte nei modelli Vision-Language-Action (VLA) utilizzati come simulatori generativi. I World Model esistenti, quando testati su benchmark come LIBERO, soffrono di sensibilità a perturbazioni dello stato iniziale come cambiamenti di colore e illuminazione, portando ad allucinazioni a cascata e previsioni degradate degli stati futuri. Sword introduce il dynamic latent bootstrapping per mitigare questi problemi, migliorando l'affidabilità per l'ottimizzazione delle policy interamente nell'immaginazione. Il metodo si concentra sul post-addestramento delle policy VLA, migliorando la fedeltà del simulatore senza richiedere interazione con il mondo reale. L'articolo è disponibile su arXiv con ID 2605.07288.
Fatti principali
- Sword è un robusto framework World Model per il post-addestramento delle policy VLA.
- I World Model esistenti sul benchmark LIBERO mostrano scarsa generalizzazione e accumulo di errori a lungo orizzonte.
- Minime perturbazioni visive causano allucinazioni a cascata nei rollout a ciclo chiuso.
- Sword utilizza il dynamic latent bootstrapping per migliorare l'affidabilità del simulatore.
- Il metodo consente l'ottimizzazione delle policy interamente nell'immaginazione.
- L'articolo è pubblicato su arXiv con ID 2605.07288.
- L'approccio si concentra sul post-addestramento dei modelli Vision-Language-Action.
- Sword affronta la sensibilità a cambiamenti di colore e illuminazione.
Entità
Istituzioni
- arXiv