SpatialUncertain: i VLM non riescono a riconoscere domande spaziali senza risposta
Un nuovo articolo di ricerca da arXiv introduce SpatialUncertain, un framework che verifica se i modelli visione-linguaggio (VLM) sanno quando non rispondere a domande spaziali. Lo studio identifica due sfide chiave di osservazione: l'occlusione, che nasconde le informazioni target, e l'ambiguità prospettica, che produce segnali visivi fuorvianti. I benchmark esistenti presuppongono che le osservazioni siano sufficienti, concentrandosi sulle risposte corrette piuttosto che sul riconoscimento di domande senza risposta. L'articolo sostiene che le osservazioni visive sono rappresentazioni intrinsecamente limitate di un mondo 3D, dove occlusione e prospettiva possono trarre in inganno. SpatialUncertain progetta domande spaziali che sono rispondibili in condizioni pulite ma diventano senza risposta sotto queste sfide. Il lavoro evidenzia una lacuna critica nel ragionamento spaziale dei VLM: i modelli spesso non riconoscono l'incertezza e non riescono a identificare quali osservazioni aggiuntive sarebbero necessarie. I risultati hanno implicazioni per l'implementazione dei VLM in ambienti reali dove i dati visivi sono incompleti o ambigui.
Fatti principali
- ID articolo arXiv: 2605.30557v1
- Introdotto il framework SpatialUncertain
- Due sfide di osservazione: occlusione e ambiguità prospettica
- I benchmark esistenti presuppongono che le osservazioni siano sufficienti
- I VLM non riescono a riconoscere quando le domande spaziali non possono essere risposte
- Le osservazioni visive sono rappresentazioni limitate del mondo 3D
- L'occlusione nasconde le informazioni target
- L'ambiguità prospettica produce segnali visivi fuorvianti
Entità
Istituzioni
- arXiv