RayDer: Un Trasformatore Unificato per la Sintesi di Nuove Viste Auto-Supervisionata e Scalabile

ai-technology · 2026-06-01

Un nuovo trasformatore feed-forward unificato chiamato RayDer è stato sviluppato dai ricercatori, integrando stima della fotocamera, ricostruzione della scena e rendering in un unico framework per la sintesi di nuove viste (NVS) auto-supervisionata da video del mondo reale. Minimizzando l'impatto degli elementi dinamici, RayDer facilita un addestramento stabile su video non vincolati, concentrandosi sulla NVS di scene statiche come obiettivo principale. Il modello mostra una legge di potenza efficace con dati e risorse computazionali a varie scale, superando i precedenti approcci NVS per scene statiche. Questa ricerca affronta le sfide dell'addestramento su video realistici e la scalabilità imprevedibile dei sistemi multi-rete, trasformando la NVS auto-supervisionata in un problema di scalabilità di un singolo modello coerente. L'articolo è disponibile su arXiv con il riferimento 2605.31535.

Fatti principali

RayDer è un trasformatore feed-forward unificato per la sintesi di nuove viste.
Consolida stima della fotocamera, ricostruzione della scena e rendering in un unico backbone.
Uno stato dinamico minimo assorbe il contenuto variabile nel tempo per un addestramento stabile.
Il contenuto dinamico viene utilizzato solo come supervisione scalabile, non ricostruito.
RayDer mostra una legge di potenza pulita con dati e calcolo.
Supera i metodi NVS per scene statiche.
L'articolo è su arXiv: 2605.31535.
L'obiettivo è la NVS auto-supervisionata da video del mondo reale.

RayDer: Un Trasformatore Unificato per la Sintesi di Nuove Viste Auto-Supervisionata e Scalabile

Fatti principali

Entità

Istituzioni

Fonti