SpatialUncertain: i VLM non riescono a riconoscere domande spaziali senza risposta

ai-technology · 2026-06-01

Un nuovo articolo di ricerca da arXiv introduce SpatialUncertain, un framework che verifica se i modelli visione-linguaggio (VLM) sanno quando non rispondere a domande spaziali. Lo studio identifica due sfide chiave di osservazione: l'occlusione, che nasconde le informazioni target, e l'ambiguità prospettica, che produce segnali visivi fuorvianti. I benchmark esistenti presuppongono che le osservazioni siano sufficienti, concentrandosi sulle risposte corrette piuttosto che sul riconoscimento di domande senza risposta. L'articolo sostiene che le osservazioni visive sono rappresentazioni intrinsecamente limitate di un mondo 3D, dove occlusione e prospettiva possono trarre in inganno. SpatialUncertain progetta domande spaziali che sono rispondibili in condizioni pulite ma diventano senza risposta sotto queste sfide. Il lavoro evidenzia una lacuna critica nel ragionamento spaziale dei VLM: i modelli spesso non riconoscono l'incertezza e non riescono a identificare quali osservazioni aggiuntive sarebbero necessarie. I risultati hanno implicazioni per l'implementazione dei VLM in ambienti reali dove i dati visivi sono incompleti o ambigui.

Fatti principali

ID articolo arXiv: 2605.30557v1
Introdotto il framework SpatialUncertain
Due sfide di osservazione: occlusione e ambiguità prospettica
I benchmark esistenti presuppongono che le osservazioni siano sufficienti
I VLM non riescono a riconoscere quando le domande spaziali non possono essere risposte
Le osservazioni visive sono rappresentazioni limitate del mondo 3D
L'occlusione nasconde le informazioni target
L'ambiguità prospettica produce segnali visivi fuorvianti

SpatialUncertain: i VLM non riescono a riconoscere domande spaziali senza risposta

Fatti principali

Entità

Istituzioni

Fonti