IVGT: Trasformatore di Geometria Visiva Implicita per la Ricostruzione di Scene 3D
È stato introdotto un nuovo framework di IA chiamato IVGT (Implicit Visual Geometry Transformer) per la ricostruzione della geometria e dell'aspetto 3D a partire da immagini multi-vista non posizionate. A differenza degli attuali modelli fondamentali di geometria visiva che generano geometria esplicita attraverso mappe di punti allineate ai pixel—che presentano problemi di ridondanza e limitata continuità geometrica—IVGT offre un approccio implicito per modellare geometria continua e coerente. Sviluppa una rappresentazione neurale continua della scena all'interno di un sistema di coordinate canoniche, consentendo query spaziali in qualsiasi posizione 3D per accedere a caratteristiche locali. Queste caratteristiche facilitano la previsione dei valori della funzione di distanza firmata (SDF) e dei colori utilizzando decodificatori leggeri. Il modello consente l'estrazione diretta della geometria superficiale continua e può produrre immagini RGB, mappe di profondità e mappe di normali superficiali da qualsiasi punto di vista. IVGT viene addestrato attraverso l'ottimizzazione congiunta su più dataset. Il documento è disponibile su arXiv con l'identificatore 2605.16258.
Fatti principali
- 1. IVGT sta per Implicit Visual Geometry Transformer.
- 2. Ricostruisce geometria e aspetto 3D da immagini multi-vista non posizionate.
- 3. I modelli esistenti usano geometria esplicita tramite mappe di punti allineate ai pixel, che sono ridondanti e mancano di continuità geometrica.
- 4. IVGT utilizza una formulazione implicita per modellare geometria continua e coerente.
- 5. Apprende una rappresentazione neurale della scena in un sistema di coordinate canoniche.
- 6. Il modello supporta query spaziali continue in qualsiasi posizione 3D.
- 7. Prevede valori di distanza firmata (SDF) e colori utilizzando decodificatori leggeri.
- 8. IVGT può renderizzare immagini RGB, mappe di profondità e mappe di normali superficiali da punti di vista arbitrari.
- 9. L'addestramento prevede l'ottimizzazione congiunta su più dataset.
- 10. Il documento è pubblicato su arXiv con ID 2605.16258.
Entità
Istituzioni
- arXiv