ARTFEED — Contemporary Art Intelligence

SpatialForge: Pipeline AI per il Ragionamento Spaziale 3D da Immagini 2D

ai-technology · 2026-05-13

SpatialForge, una pipeline scalabile di sintesi dati, trasforma immagini 2D generiche in supervisione per il ragionamento spaziale per Grandi Modelli Visione-Linguaggio (VLM). Gli attuali VLM eccellono nella comprensione semantica ma falliscono in compiti geometrici come l'ordinamento di profondità e il grounding delle coordinate. La supervisione spaziale esistente si basa su dataset centrati sulla scena (scansioni multi-vista, video interni) limitati in scala e diversità rispetto alle immagini 2D su scala web. SpatialForge scompone il ragionamento spaziale in percezione e relazione, costruendo segnali di supervisione strutturati per profondità, layout e ragionamento dipendente dal punto di vista con verifica automatica. L'approccio affronta il collo di bottiglia della scarsità di dati di training 3D sfruttando l'abbondante immaginario 2D. L'articolo è disponibile su arXiv (2605.11462).

Fatti principali

  • SpatialForge è una pipeline scalabile di sintesi dati per il ragionamento spaziale 3D.
  • Trasforma immagini 2D generiche in supervisione per il ragionamento spaziale.
  • Gli attuali VLM hanno difficoltà con compiti di ragionamento spaziale come l'ordinamento di profondità e il grounding delle coordinate.
  • La supervisione spaziale esistente utilizza dataset centrati sulla scena (scansioni multi-vista, video interni).
  • I dataset centrati sulla scena sono limitati in scala e diversità rispetto alle immagini 2D su scala web.
  • SpatialForge scompone il ragionamento spaziale in percezione e relazione.
  • Costruisce segnali di supervisione strutturati per profondità, layout e ragionamento dipendente dal punto di vista.
  • La pipeline include verifica automatica.
  • L'articolo è su arXiv con ID 2605.11462.
  • L'approccio affronta la scarsità di dati di training 3D diversificati.

Entità

Istituzioni

  • arXiv

Fonti