ARTFEED — Contemporary Art Intelligence

PanoWorld genera video 360° geometricamente coerenti da una singola immagine

ai-technology · 2026-05-18

Un nuovo modello di video panoramico mondiale chiamato PanoWorld è stato sviluppato da ricercatori, consentendo la creazione di video 360° geometricamente coerenti a partire da una sola immagine e una didascalia. I metodi tradizionali per i video panoramici si concentrano sul realismo visivo ma spesso non riescono a mantenere vincoli espliciti sulla scena 3D, causando problemi come profondità incoerente e movimento irrealistico sulla superficie sferica. PanoWorld affronta la sfida della generazione di video panoramici modellando stati latenti che garantiscono coerenza geometrica e dinamica, piuttosto che concentrarsi solo sull'output visivo. Il sistema si basa su un modello di video mondiale prospettico pre-addestrato e impiega due regolarizzatori leggeri: una perdita di coerenza della profondità e una perdita di coerenza della traiettoria. Questo studio è disponibile su arXiv con l'identificatore 2605.15391.

Fatti principali

  • PanoWorld genera video 360° da una singola immagine e una didascalia.
  • Impone coerenza geometrica e dinamica nella modellazione degli stati latenti.
  • Due regolarizzatori: perdita di coerenza della profondità e perdita di coerenza della traiettoria.
  • Basato su un modello di video mondiale prospettico pre-addestrato.
  • Adattamento consapevole della geometria sferica applicato a condizionamento e codifiche posizionali.
  • Affronta profondità incoerente e movimento implausibile nei metodi esistenti.
  • Pubblicato su arXiv con ID 2605.15391.
  • Il tipo di annuncio è cross.

Entità

Istituzioni

  • arXiv

Fonti