IVGT: Trasformatore di Geometria Visiva Implicita per la Ricostruzione di Scene 3D

ai-technology · 2026-05-18

È stato introdotto un nuovo framework di IA chiamato IVGT (Implicit Visual Geometry Transformer) per la ricostruzione della geometria e dell'aspetto 3D a partire da immagini multi-vista non posizionate. A differenza degli attuali modelli fondamentali di geometria visiva che generano geometria esplicita attraverso mappe di punti allineate ai pixel—che presentano problemi di ridondanza e limitata continuità geometrica—IVGT offre un approccio implicito per modellare geometria continua e coerente. Sviluppa una rappresentazione neurale continua della scena all'interno di un sistema di coordinate canoniche, consentendo query spaziali in qualsiasi posizione 3D per accedere a caratteristiche locali. Queste caratteristiche facilitano la previsione dei valori della funzione di distanza firmata (SDF) e dei colori utilizzando decodificatori leggeri. Il modello consente l'estrazione diretta della geometria superficiale continua e può produrre immagini RGB, mappe di profondità e mappe di normali superficiali da qualsiasi punto di vista. IVGT viene addestrato attraverso l'ottimizzazione congiunta su più dataset. Il documento è disponibile su arXiv con l'identificatore 2605.16258.

Fatti principali

1. IVGT sta per Implicit Visual Geometry Transformer.
2. Ricostruisce geometria e aspetto 3D da immagini multi-vista non posizionate.
3. I modelli esistenti usano geometria esplicita tramite mappe di punti allineate ai pixel, che sono ridondanti e mancano di continuità geometrica.
4. IVGT utilizza una formulazione implicita per modellare geometria continua e coerente.
5. Apprende una rappresentazione neurale della scena in un sistema di coordinate canoniche.
6. Il modello supporta query spaziali continue in qualsiasi posizione 3D.
7. Prevede valori di distanza firmata (SDF) e colori utilizzando decodificatori leggeri.
8. IVGT può renderizzare immagini RGB, mappe di profondità e mappe di normali superficiali da punti di vista arbitrari.
9. L'addestramento prevede l'ottimizzazione congiunta su più dataset.
10. Il documento è pubblicato su arXiv con ID 2605.16258.

IVGT: Trasformatore di Geometria Visiva Implicita per la Ricostruzione di Scene 3D

Fatti principali

Entità

Istituzioni

Fonti