ARTFEED — Contemporary Art Intelligence

IVGT: Trasformatore di Geometria Visiva Implicita per la Ricostruzione di Scene 3D

ai-technology · 2026-05-18

È stato introdotto un nuovo framework di IA chiamato IVGT (Implicit Visual Geometry Transformer) per la ricostruzione della geometria e dell'aspetto 3D a partire da immagini multi-vista non posizionate. A differenza degli attuali modelli fondamentali di geometria visiva che generano geometria esplicita attraverso mappe di punti allineate ai pixel—che presentano problemi di ridondanza e limitata continuità geometrica—IVGT offre un approccio implicito per modellare geometria continua e coerente. Sviluppa una rappresentazione neurale continua della scena all'interno di un sistema di coordinate canoniche, consentendo query spaziali in qualsiasi posizione 3D per accedere a caratteristiche locali. Queste caratteristiche facilitano la previsione dei valori della funzione di distanza firmata (SDF) e dei colori utilizzando decodificatori leggeri. Il modello consente l'estrazione diretta della geometria superficiale continua e può produrre immagini RGB, mappe di profondità e mappe di normali superficiali da qualsiasi punto di vista. IVGT viene addestrato attraverso l'ottimizzazione congiunta su più dataset. Il documento è disponibile su arXiv con l'identificatore 2605.16258.

Fatti principali

  • 1. IVGT sta per Implicit Visual Geometry Transformer.
  • 2. Ricostruisce geometria e aspetto 3D da immagini multi-vista non posizionate.
  • 3. I modelli esistenti usano geometria esplicita tramite mappe di punti allineate ai pixel, che sono ridondanti e mancano di continuità geometrica.
  • 4. IVGT utilizza una formulazione implicita per modellare geometria continua e coerente.
  • 5. Apprende una rappresentazione neurale della scena in un sistema di coordinate canoniche.
  • 6. Il modello supporta query spaziali continue in qualsiasi posizione 3D.
  • 7. Prevede valori di distanza firmata (SDF) e colori utilizzando decodificatori leggeri.
  • 8. IVGT può renderizzare immagini RGB, mappe di profondità e mappe di normali superficiali da punti di vista arbitrari.
  • 9. L'addestramento prevede l'ottimizzazione congiunta su più dataset.
  • 10. Il documento è pubblicato su arXiv con ID 2605.16258.

Entità

Istituzioni

  • arXiv

Fonti