ARTFEED — Contemporary Art Intelligence

X-WAM: Modello Mondiale 4D Unificato per Robotica e Sintesi Video

ai-technology · 2026-04-30

I ricercatori hanno introdotto X-WAM, un modello mondiale 4D integrato che unisce l'esecuzione di azioni robotiche in tempo reale con la sintesi 4D ad alta fedeltà, comprendente video e ricostruzione 3D, tutto all'interno di un unico framework. Questo modello supera le carenze dei modelli precedenti come UWM, che operano solo nello spazio pixel 2D e faticano a raggiungere un equilibrio tra efficienza dell'azione e qualità della modellazione mondiale. X-WAM utilizza modelli di diffusione video preaddestrati per prevedere video RGB-D multivista e raccoglie dati spaziali attraverso un adattamento strutturale leggero, che consiste nel replicare gli ultimi blocchi del Diffusion Transformer preaddestrato in un ramo specifico di previsione della profondità. Il metodo di Asynchronous Noise Sampling (ANS) migliora sia la qualità della generazione che l'efficienza della decodifica delle azioni attraverso un programma di denoising asincrono su misura. La ricerca è disponibile su arXiv con ID 2604.26694.

Fatti principali

  • 1. X-WAM unifica l'esecuzione di azioni robotiche in tempo reale e la sintesi 4D ad alta fedeltà.
  • 2. Affronta le limitazioni dei precedenti modelli mondiali unificati come UWM.
  • 3. X-WAM prevede video RGB-D multivista utilizzando modelli di diffusione video preaddestrati.
  • 4. Le informazioni spaziali sono ottenute tramite un adattamento strutturale leggero: replicare i blocchi finali del Diffusion Transformer in un ramo di previsione della profondità.
  • 5. Asynchronous Noise Sampling (ANS) ottimizza congiuntamente la qualità della generazione e l'efficienza della decodifica delle azioni.
  • 6. L'articolo è disponibile su arXiv con ID 2604.26694.
  • 7. X-WAM sta per Modello Mondiale 4D Unificato.
  • 8. L'approccio sfrutta i forti prior visivi dei modelli di diffusione video preaddestrati.

Entità

Istituzioni

  • arXiv

Fonti