Geometry Forcing: un ponte tra la diffusione video e la modellazione 3D del mondo
I ricercatori propongono Geometry Forcing, un metodo per integrare la consapevolezza geometrica 3D nei modelli di diffusione video. L'approccio allinea le rappresentazioni intermedie con le caratteristiche di un modello geometrico di base utilizzando due obiettivi: Angular Alignment per la coerenza direzionale e Scale Alignment per la conservazione della scala. Ciò affronta il fallimento dei modelli di diffusione video standard nel catturare una struttura 3D significativa dai dati video 2D. L'articolo è disponibile su arXiv (2507.07982).
Fatti principali
- Geometry Forcing allinea le rappresentazioni del modello di diffusione video con le caratteristiche del modello geometrico di base.
- Due obiettivi di allineamento: Angular Alignment (similarità coseno) e Scale Alignment (regressione).
- Affronta il divario tra la diffusione video 2D e la modellazione 3D del mondo.
- Articolo disponibile su arXiv con ID 2507.07982.
- Il metodo incoraggia rappresentazioni intermedie geometricamente consapevoli.
Entità
Istituzioni
- arXiv