Studio mette in dubbio che i benchmark vision-linguaggio testino realmente la comprensione visiva
Uno studio recente pubblicato su arXiv (2605.22903) mette in discussione la convinzione che un'accuratezza eccezionale nei benchmark dei modelli vision-linguaggio (VLM) significhi una reale comprensione visiva. I ricercatori hanno scoperto che le prestazioni su un importante benchmark di allucinazioni erano solo minimamente influenzate quando una parte significativa dei token dell'immagine veniva rimossa. La loro analisi include degradazione visiva globale, occlusione localizzata, riformulazione delle domande, espansione dello spazio delle risposte e valutazioni a livello decisionale. Inoltre, un esame a strati della geometria dei token visivi supporta i risultati comportamentali. I risultati rivelano che, sebbene i VLM utilizzino effettivamente l'input visivo, non sono così reattivi all'assenza di informazioni visive dettagliate come suggeriscono le metriche di accuratezza.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.22903
- Si concentra sui modelli vision-linguaggio (VLM)
- La rimozione di molti token dell'immagine influisce a malapena sui punteggi del benchmark
- L'analisi include degradazione visiva globale e localizzata
- Esamina la riformulazione delle domande e l'espansione dello spazio delle risposte
- Analisi a strati della geometria dei token visivi condotta
- I VLM usano ancora l'input visivo ma non quanto si presume
- L'accuratezza del benchmark potrebbe sopravvalutare il radicamento visivo
Entità
Istituzioni
- arXiv