ARTFEED — Contemporary Art Intelligence

Benchmark SceneFunRI testa i VLM sul ragionamento su oggetti occlusi

other · 2026-05-16

Un nuovo benchmark chiamato SceneFunRI è stato presentato per valutare le prestazioni dei modelli visione-linguaggio (VLM) nel determinare le posizioni di oggetti funzionali nascosti. Basato sul dataset SceneFun3D, include 855 scenari che sfidano i modelli a dedurre le posizioni degli oggetti in base a istruzioni e ragionamento innato. Il modello con le migliori prestazioni, Gemini 3 Flash, ha registrato un CAcc@75 di 15,20, un punteggio mIoU di 0,74 e un Dist di 28,65. La ricerca ha esplorato varie strategie di prompting, rivelando significative limitazioni nelle capacità di ragionamento spaziale dei VLM quando si trovano ad affrontare ambienti sconosciuti.

Fatti principali

  • SceneFunRI è un benchmark per il ragionamento su oggetti funzionali invisibili.
  • Basato sul dataset SceneFun3D.
  • Comprende 855 istanze.
  • Richiede ai modelli di inferire le posizioni di oggetti occlusi da istruzioni di compito e ragionamento di senso comune.
  • Gemini 3 Flash ha raggiunto CAcc@75 di 15,20, mIoU di 0,74 e Dist di 28,65.
  • L'analisi del prompting include Strong Instruction Prompting, Reasoning-based Prompting e Spatial Process of Elimination (SPoE).
  • Affronta una sfida importante per i modelli visione-linguaggio (VLM).

Entità

Fonti