PanoWorld genera video 360° geometricamente coerenti da una singola immagine
Un nuovo modello di video panoramico mondiale chiamato PanoWorld è stato sviluppato da ricercatori, consentendo la creazione di video 360° geometricamente coerenti a partire da una sola immagine e una didascalia. I metodi tradizionali per i video panoramici si concentrano sul realismo visivo ma spesso non riescono a mantenere vincoli espliciti sulla scena 3D, causando problemi come profondità incoerente e movimento irrealistico sulla superficie sferica. PanoWorld affronta la sfida della generazione di video panoramici modellando stati latenti che garantiscono coerenza geometrica e dinamica, piuttosto che concentrarsi solo sull'output visivo. Il sistema si basa su un modello di video mondiale prospettico pre-addestrato e impiega due regolarizzatori leggeri: una perdita di coerenza della profondità e una perdita di coerenza della traiettoria. Questo studio è disponibile su arXiv con l'identificatore 2605.15391.
Fatti principali
- PanoWorld genera video 360° da una singola immagine e una didascalia.
- Impone coerenza geometrica e dinamica nella modellazione degli stati latenti.
- Due regolarizzatori: perdita di coerenza della profondità e perdita di coerenza della traiettoria.
- Basato su un modello di video mondiale prospettico pre-addestrato.
- Adattamento consapevole della geometria sferica applicato a condizionamento e codifiche posizionali.
- Affronta profondità incoerente e movimento implausibile nei metodi esistenti.
- Pubblicato su arXiv con ID 2605.15391.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv