Studio mette in dubbio che i benchmark vision-linguaggio testino realmente la comprensione visiva

ai-technology · 2026-05-25

Uno studio recente pubblicato su arXiv (2605.22903) mette in discussione la convinzione che un'accuratezza eccezionale nei benchmark dei modelli vision-linguaggio (VLM) significhi una reale comprensione visiva. I ricercatori hanno scoperto che le prestazioni su un importante benchmark di allucinazioni erano solo minimamente influenzate quando una parte significativa dei token dell'immagine veniva rimossa. La loro analisi include degradazione visiva globale, occlusione localizzata, riformulazione delle domande, espansione dello spazio delle risposte e valutazioni a livello decisionale. Inoltre, un esame a strati della geometria dei token visivi supporta i risultati comportamentali. I risultati rivelano che, sebbene i VLM utilizzino effettivamente l'input visivo, non sono così reattivi all'assenza di informazioni visive dettagliate come suggeriscono le metriche di accuratezza.

Fatti principali

Studio pubblicato su arXiv con ID 2605.22903
Si concentra sui modelli vision-linguaggio (VLM)
La rimozione di molti token dell'immagine influisce a malapena sui punteggi del benchmark
L'analisi include degradazione visiva globale e localizzata
Esamina la riformulazione delle domande e l'espansione dello spazio delle risposte
Analisi a strati della geometria dei token visivi condotta
I VLM usano ancora l'input visivo ma non quanto si presume
L'accuratezza del benchmark potrebbe sopravvalutare il radicamento visivo

Studio mette in dubbio che i benchmark vision-linguaggio testino realmente la comprensione visiva

Fatti principali

Entità

Istituzioni

Fonti