Raggi come Pixel: Modello di Diffusione Congiunto per Video e Traiettoria della Telecamera
Un nuovo modello di diffusione video (VDM) chiamato Rays as Pixels è stato introdotto dai ricercatori, che cattura una distribuzione congiunta di video e movimenti della telecamera. Questo modello innovativo è il primo a prevedere simultaneamente le pose della telecamera e a consentire la creazione di video controllati dalla telecamera all'interno di un unico framework. Codifica ogni telecamera come densi pixel di raggio (raxels), allineando la rappresentazione dei pixel con lo spazio latente dei fotogrammi video, e utilizza un meccanismo di Attenzione Decoupled Self-Cross per la denoising congiunto. Il modello svolge efficientemente tre funzioni: predice le traiettorie della telecamera dai video, genera video da immagini date lungo un percorso specificato e sintetizza insieme video e traiettoria. La ricerca è disponibile su arXiv con ID 2604.09429.
Fatti principali
- Primo modello a combinare la previsione della posa della telecamera e la generazione di video controllati dalla telecamera in un unico framework.
- Utilizza densi pixel di raggio (raxels) come codifica allineata ai pixel per le telecamere.
- Impiega un meccanismo di Attenzione Decoupled Self-Cross per la denoising congiunto.
- Gestisce tre compiti: previsione della traiettoria, generazione di video da immagini e sintesi congiunta.
- Pubblicato su arXiv con ID 2604.09429.
Entità
Istituzioni
- arXiv