ARTFEED — Contemporary Art Intelligence

Primitive 3D come linguaggio spaziale per i VLM

other · 2026-05-14

Uno studio recente indica che i modelli visione-linguaggio (VLM) sono in grado di ricostruire scene 3D a partire da forme geometriche di base come cubi, sfere e cilindri tramite codice eseguibile, ma faticano con domande spaziali più semplici relative alle stesse immagini. I ricercatori hanno introdotto SpatialBabel, un benchmark che valuta quattordici VLM sulla loro capacità di ricostruire scene 3D basate su primitive attraverso sei linguaggi di scena-codice, rivelando che i punteggi F1 di rilevamento degli oggetti possono differire fino a 5,7× tra i linguaggi. Inoltre, presentano Code-CoT (Code Chain-of-Thought), un approccio inferenziale che non richiede addestramento per migliorare la comprensione spaziale. Questi risultati sottolineano una contraddizione nel ragionamento spaziale dei VLM e propongono le primitive 3D come una significativa rappresentazione intermedia.

Fatti principali

  • I VLM possono generare codice per ricostruire scene 3D da primitive, ma falliscono in domande spaziali più semplici.
  • Il benchmark SpatialBabel valuta quattordici VLM sulla ricostruzione 3D basata su primitive.
  • Sei linguaggi di scena-codice vengono utilizzati per scene con primitive 3D.
  • L'F1 di rilevamento degli oggetti varia fino a 5,7× tra i linguaggi.
  • Code-CoT è una strategia inferenziale senza addestramento proposta.
  • Le primitive geometriche 3D includono cubi, sfere, cilindri.
  • Lo studio proviene da arXiv:2605.12586.
  • Il paradosso evidenzia limitazioni nella comprensione spaziale dei VLM.

Entità

Istituzioni

  • arXiv

Fonti