Sword Framework migliora la robustezza del World Model per l'addestramento delle policy VLA

ai-technology · 2026-05-11

I ricercatori propongono Sword, un robusto framework World Model per affrontare la scarsa generalizzazione e l'accumulo di errori a lungo orizzonte nei modelli Vision-Language-Action (VLA) utilizzati come simulatori generativi. I World Model esistenti, quando testati su benchmark come LIBERO, soffrono di sensibilità a perturbazioni dello stato iniziale come cambiamenti di colore e illuminazione, portando ad allucinazioni a cascata e previsioni degradate degli stati futuri. Sword introduce il dynamic latent bootstrapping per mitigare questi problemi, migliorando l'affidabilità per l'ottimizzazione delle policy interamente nell'immaginazione. Il metodo si concentra sul post-addestramento delle policy VLA, migliorando la fedeltà del simulatore senza richiedere interazione con il mondo reale. L'articolo è disponibile su arXiv con ID 2605.07288.

Fatti principali

Sword è un robusto framework World Model per il post-addestramento delle policy VLA.
I World Model esistenti sul benchmark LIBERO mostrano scarsa generalizzazione e accumulo di errori a lungo orizzonte.
Minime perturbazioni visive causano allucinazioni a cascata nei rollout a ciclo chiuso.
Sword utilizza il dynamic latent bootstrapping per migliorare l'affidabilità del simulatore.
Il metodo consente l'ottimizzazione delle policy interamente nell'immaginazione.
L'articolo è pubblicato su arXiv con ID 2605.07288.
L'approccio si concentra sul post-addestramento dei modelli Vision-Language-Action.
Sword affronta la sensibilità a cambiamenti di colore e illuminazione.

Sword Framework migliora la robustezza del World Model per l'addestramento delle policy VLA

Fatti principali

Entità

Istituzioni

Fonti