Primitive 3D come linguaggio spaziale per i VLM

other · 2026-05-14

Uno studio recente indica che i modelli visione-linguaggio (VLM) sono in grado di ricostruire scene 3D a partire da forme geometriche di base come cubi, sfere e cilindri tramite codice eseguibile, ma faticano con domande spaziali più semplici relative alle stesse immagini. I ricercatori hanno introdotto SpatialBabel, un benchmark che valuta quattordici VLM sulla loro capacità di ricostruire scene 3D basate su primitive attraverso sei linguaggi di scena-codice, rivelando che i punteggi F1 di rilevamento degli oggetti possono differire fino a 5,7× tra i linguaggi. Inoltre, presentano Code-CoT (Code Chain-of-Thought), un approccio inferenziale che non richiede addestramento per migliorare la comprensione spaziale. Questi risultati sottolineano una contraddizione nel ragionamento spaziale dei VLM e propongono le primitive 3D come una significativa rappresentazione intermedia.

Fatti principali

I VLM possono generare codice per ricostruire scene 3D da primitive, ma falliscono in domande spaziali più semplici.
Il benchmark SpatialBabel valuta quattordici VLM sulla ricostruzione 3D basata su primitive.
Sei linguaggi di scena-codice vengono utilizzati per scene con primitive 3D.
L'F1 di rilevamento degli oggetti varia fino a 5,7× tra i linguaggi.
Code-CoT è una strategia inferenziale senza addestramento proposta.
Le primitive geometriche 3D includono cubi, sfere, cilindri.
Lo studio proviene da arXiv:2605.12586.
Il paradosso evidenzia limitazioni nella comprensione spaziale dei VLM.

Primitive 3D come linguaggio spaziale per i VLM

Fatti principali

Entità

Istituzioni

Fonti