Primitive 3D come linguaggio spaziale per i VLM
Uno studio recente indica che i modelli visione-linguaggio (VLM) sono in grado di ricostruire scene 3D a partire da forme geometriche di base come cubi, sfere e cilindri tramite codice eseguibile, ma faticano con domande spaziali più semplici relative alle stesse immagini. I ricercatori hanno introdotto SpatialBabel, un benchmark che valuta quattordici VLM sulla loro capacità di ricostruire scene 3D basate su primitive attraverso sei linguaggi di scena-codice, rivelando che i punteggi F1 di rilevamento degli oggetti possono differire fino a 5,7× tra i linguaggi. Inoltre, presentano Code-CoT (Code Chain-of-Thought), un approccio inferenziale che non richiede addestramento per migliorare la comprensione spaziale. Questi risultati sottolineano una contraddizione nel ragionamento spaziale dei VLM e propongono le primitive 3D come una significativa rappresentazione intermedia.
Fatti principali
- I VLM possono generare codice per ricostruire scene 3D da primitive, ma falliscono in domande spaziali più semplici.
- Il benchmark SpatialBabel valuta quattordici VLM sulla ricostruzione 3D basata su primitive.
- Sei linguaggi di scena-codice vengono utilizzati per scene con primitive 3D.
- L'F1 di rilevamento degli oggetti varia fino a 5,7× tra i linguaggi.
- Code-CoT è una strategia inferenziale senza addestramento proposta.
- Le primitive geometriche 3D includono cubi, sfere, cilindri.
- Lo studio proviene da arXiv:2605.12586.
- Il paradosso evidenzia limitazioni nella comprensione spaziale dei VLM.
Entità
Istituzioni
- arXiv