Benchmark SceneFunRI testa i VLM sul ragionamento su oggetti occlusi

other · 2026-05-16

Un nuovo benchmark chiamato SceneFunRI è stato presentato per valutare le prestazioni dei modelli visione-linguaggio (VLM) nel determinare le posizioni di oggetti funzionali nascosti. Basato sul dataset SceneFun3D, include 855 scenari che sfidano i modelli a dedurre le posizioni degli oggetti in base a istruzioni e ragionamento innato. Il modello con le migliori prestazioni, Gemini 3 Flash, ha registrato un CAcc@75 di 15,20, un punteggio mIoU di 0,74 e un Dist di 28,65. La ricerca ha esplorato varie strategie di prompting, rivelando significative limitazioni nelle capacità di ragionamento spaziale dei VLM quando si trovano ad affrontare ambienti sconosciuti.

Fatti principali

SceneFunRI è un benchmark per il ragionamento su oggetti funzionali invisibili.
Basato sul dataset SceneFun3D.
Comprende 855 istanze.
Richiede ai modelli di inferire le posizioni di oggetti occlusi da istruzioni di compito e ragionamento di senso comune.
Gemini 3 Flash ha raggiunto CAcc@75 di 15,20, mIoU di 0,74 e Dist di 28,65.
L'analisi del prompting include Strong Instruction Prompting, Reasoning-based Prompting e Spatial Process of Elimination (SPoE).
Affronta una sfida importante per i modelli visione-linguaggio (VLM).

Entità

—

Fonti

arXiv cs.AI — 2026-05-16