ARTFEED — Contemporary Art Intelligence

CRePE: Codifica Posizionale per Raggi Curvi per il Controllo Unificato della Telecamera nella Generazione Video

ai-technology · 2026-05-14

È stata sviluppata una nuova tecnica chiamata Curved Ray Expectation Positional Encoding (CRePE) per migliorare la generazione video condizionata dagli input della telecamera all'interno del Modello di Telecamera Unificato, supportando sia obiettivi grandangolari che fish-eye. Le attuali codifiche a livello di attenzione per le telecamere si concentrano esclusivamente sui segnali dei raggi o dipendono dalla geometria stenopeica, limitandone l'uso. CRePE codifica ogni token dell'immagine come una distribuzione posizionale sensibile alla profondità lungo il raggio di origine, catturando efficacemente la geometria dei percorsi proiettati influenzati da telecamere non stenopeiche. Questo metodo viene integrato tramite un Adattatore di Attenzione Geometrica nei trasformatori di diffusione video statici (DiT), incorporando dati sulla distanza della scena in specifici strati di attenzione e stabilizzandoli attraverso una pseudo-supervisione. L'approccio è descritto in un articolo su arXiv (2605.12938) e mira a facilitare una codifica posizionale affidabile in presenza di variazioni nel movimento della telecamera, nelle impostazioni dell'obiettivo e nelle strutture della scena.

Fatti principali

  • CRePE sta per Curved Ray Expectation Positional Encoding.
  • Affronta le limitazioni delle codifiche esistenti per telecamera nella generazione video.
  • Supporta il Modello di Telecamera Unificato, inclusi obiettivi grandangolari e fish-eye.
  • Rappresenta i token dell'immagine come distribuzioni posizionali sensibili alla profondità lungo i raggi di origine.
  • Implementato tramite un Adattatore di Attenzione Geometrica aggiunto ai DiT video congelati.
  • Inietta informazioni sulla distanza della scena a livello di token in strati di attenzione selezionati.
  • Articolo pubblicato su arXiv con identificativo 2605.12938.
  • Mira a migliorare l'affidabilità della generazione video condizionata dalla telecamera.

Entità

Istituzioni

  • arXiv

Fonti