ARTFEED — Contemporary Art Intelligence

Ilov3Splat: Comprensione di Scene 3D a Vocabolario Aperto tramite Gaussian Splatting

ai-technology · 2026-05-07

I ricercatori hanno introdotto Ilov3Splat, un framework per la comprensione di scene 3D a livello di istanza e a vocabolario aperto utilizzando il 3D Gaussian Splatting (3D-GS). A differenza dei metodi precedenti che si basano su rendering 2D o associazione semantica a livello di punto, Ilov3Splat ottimizza congiuntamente geometria e semantica potenziando i Gaussian splat con campi di caratteristiche coerenti con la vista. Utilizza embedding hash multi-risoluzione per codificare le caratteristiche CLIP per un grounding linguistico denso nello spazio 3D, e addestra un campo di caratteristiche di istanza con loss contrastiva su maschere SAM per una distinzione fine degli oggetti. Durante l'inferenza, le query CLIP vengono confrontate con le caratteristiche apprese tramite clustering 3D a due stadi. L'articolo è disponibile su arXiv.

Fatti principali

  • Ilov3Splat è un framework per la comprensione di scene 3D a livello di istanza e a vocabolario aperto.
  • Si basa sul 3D Gaussian Splatting (3D-GS).
  • I lavori precedenti dipendono da matching basato su rendering 2D o associazione semantica a livello di punto.
  • Il metodo ottimizza congiuntamente la geometria della scena e le rappresentazioni semantiche.
  • Potenziamento dei Gaussian splat con campi di caratteristiche coerenti con la vista.
  • L'embedding hash multi-risoluzione codifica le caratteristiche CLIP allineate al linguaggio.
  • Il campo di caratteristiche di istanza viene addestrato utilizzando loss contrastiva su maschere SAM.
  • L'inferenza utilizza query codificate con CLIP confrontate con le caratteristiche apprese tramite clustering 3D a due stadi.

Entità

Istituzioni

  • arXiv

Fonti