ARTFEED — Contemporary Art Intelligence

Sword Framework migliora la robustezza del World Model per l'addestramento delle policy VLA

ai-technology · 2026-05-11

I ricercatori propongono Sword, un robusto framework World Model per affrontare la scarsa generalizzazione e l'accumulo di errori a lungo orizzonte nei modelli Vision-Language-Action (VLA) utilizzati come simulatori generativi. I World Model esistenti, quando testati su benchmark come LIBERO, soffrono di sensibilità a perturbazioni dello stato iniziale come cambiamenti di colore e illuminazione, portando ad allucinazioni a cascata e previsioni degradate degli stati futuri. Sword introduce il dynamic latent bootstrapping per mitigare questi problemi, migliorando l'affidabilità per l'ottimizzazione delle policy interamente nell'immaginazione. Il metodo si concentra sul post-addestramento delle policy VLA, migliorando la fedeltà del simulatore senza richiedere interazione con il mondo reale. L'articolo è disponibile su arXiv con ID 2605.07288.

Fatti principali

  • Sword è un robusto framework World Model per il post-addestramento delle policy VLA.
  • I World Model esistenti sul benchmark LIBERO mostrano scarsa generalizzazione e accumulo di errori a lungo orizzonte.
  • Minime perturbazioni visive causano allucinazioni a cascata nei rollout a ciclo chiuso.
  • Sword utilizza il dynamic latent bootstrapping per migliorare l'affidabilità del simulatore.
  • Il metodo consente l'ottimizzazione delle policy interamente nell'immaginazione.
  • L'articolo è pubblicato su arXiv con ID 2605.07288.
  • L'approccio si concentra sul post-addestramento dei modelli Vision-Language-Action.
  • Sword affronta la sensibilità a cambiamenti di colore e illuminazione.

Entità

Istituzioni

  • arXiv

Fonti