SpatialForge: Pipeline AI per il Ragionamento Spaziale 3D da Immagini 2D
SpatialForge, una pipeline scalabile di sintesi dati, trasforma immagini 2D generiche in supervisione per il ragionamento spaziale per Grandi Modelli Visione-Linguaggio (VLM). Gli attuali VLM eccellono nella comprensione semantica ma falliscono in compiti geometrici come l'ordinamento di profondità e il grounding delle coordinate. La supervisione spaziale esistente si basa su dataset centrati sulla scena (scansioni multi-vista, video interni) limitati in scala e diversità rispetto alle immagini 2D su scala web. SpatialForge scompone il ragionamento spaziale in percezione e relazione, costruendo segnali di supervisione strutturati per profondità, layout e ragionamento dipendente dal punto di vista con verifica automatica. L'approccio affronta il collo di bottiglia della scarsità di dati di training 3D sfruttando l'abbondante immaginario 2D. L'articolo è disponibile su arXiv (2605.11462).
Fatti principali
- SpatialForge è una pipeline scalabile di sintesi dati per il ragionamento spaziale 3D.
- Trasforma immagini 2D generiche in supervisione per il ragionamento spaziale.
- Gli attuali VLM hanno difficoltà con compiti di ragionamento spaziale come l'ordinamento di profondità e il grounding delle coordinate.
- La supervisione spaziale esistente utilizza dataset centrati sulla scena (scansioni multi-vista, video interni).
- I dataset centrati sulla scena sono limitati in scala e diversità rispetto alle immagini 2D su scala web.
- SpatialForge scompone il ragionamento spaziale in percezione e relazione.
- Costruisce segnali di supervisione strutturati per profondità, layout e ragionamento dipendente dal punto di vista.
- La pipeline include verifica automatica.
- L'articolo è su arXiv con ID 2605.11462.
- L'approccio affronta la scarsità di dati di training 3D diversificati.
Entità
Istituzioni
- arXiv