VisualNeedle Benchmark Espone le Scorciatoie Visive degli MLLM

ai-technology · 2026-05-27

I ricercatori hanno introdotto VisualNeedle, un benchmark progettato per testare la ricerca visiva attiva nei modelli linguistici multimodali di grandi dimensioni (MLLM). Il benchmark si concentra su scene in cui le prove critiche sono spazialmente limitate e ricche di informazioni, sfidando i modelli a fare affidamento su un'elaborazione visiva genuina piuttosto che su scorciatoie. Studi precedenti hanno identificato tre scorciatoie comuni: pregiudizi linguistici e indizi lessicali nelle domande, semantica globale grossolana da encoder visivi che bypassano i dettagli fini, e corruzione di immagini intermedie che influenzano a malapena le risposte in alcuni benchmark. VisualNeedle mira ad affrontare questi problemi richiedendo una percezione a grana fine che va oltre l'alta risoluzione o ampi pool di domande. Il lavoro è pubblicato su arXiv con identificativo 2605.26380.

Fatti principali

VisualNeedle è un benchmark per la ricerca visiva attiva in scene ricche di informazioni.
Gli MLLM all'avanguardia raggiungono oltre il 90% di accuratezza nei benchmark di percezione a grana fine.
Tre scorciatoie gonfiano le prestazioni del benchmark: pregiudizi linguistici, semantica globale grossolana e robustezza alla corruzione delle immagini.
Una risoluzione di input più alta o pool di domande più ampi non elicitano una genuina ricerca visiva attiva.
Il benchmark è introdotto per affrontare la mancanza di uso fedele delle prove visive.
L'articolo è disponibile su arXiv con ID 2605.26380.
La ricerca si concentra su prove critiche spazialmente limitate.
Il benchmark è progettato per essere impegnativo e a grana fine.

VisualNeedle Benchmark Espone le Scorciatoie Visive degli MLLM

Fatti principali

Entità

Istituzioni

Fonti