VGGT-Edit: Editing nativo di scene 3D feed-forward con previsione del campo residuo
Un nuovo framework chiamato VGGT-Edit è stato introdotto dai ricercatori per modificare scene 3D native basate su input testuali. Questo metodo innovativo affronta le carenze delle attuali tecniche di sollevamento 2D incorporando l'iniezione di testo sincronizzata con la profondità, che allinea la guida semantica con le pose spaziali. Ciò consente la modifica diretta di scene 3D senza la necessità di ottimizzazione per ogni singola scena, risolvendo efficacemente i problemi relativi a texture sfocate e geometria incoerente. I risultati sono documentati in una pubblicazione su arXiv (2605.15186).
Fatti principali
- VGGT-Edit è un framework feed-forward per l'editing nativo di scene 3D condizionato da testo.
- Introduce l'iniezione di testo sincronizzata con la profondità per l'allineamento spaziale.
- I metodi di editing esistenti si basano sul sollevamento 2D, portando a texture sfocate e geometria incoerente.
- VGGT-Edit consente l'editing 3D diretto senza ottimizzazione per scena.
- Pubblicato su arXiv con ID 2605.15186.
- Il framework è pensato per applicazioni interattive che richiedono istruzioni umane dinamiche.
- Si basa su recenti progressi nella ricostruzione 3D feed-forward generalizzabile.
- L'iniezione di testo sincronizzata con la profondità allinea la guida semantica con le pose spaziali del backbone.
Entità
Istituzioni
- arXiv