DistortBench: Nuovo benchmark testa la percezione delle distorsioni nelle immagini da parte dei VLM

ai-technology · 2026-04-24

Un nuovo benchmark diagnostico chiamato DistortBench è stato sviluppato da ricercatori per valutare la capacità dei modelli visione-linguaggio (VLM) di rilevare distorsioni nelle immagini senza un riferimento. Questo benchmark presenta 13.500 domande a scelta multipla che coprono 27 tipi di distorsioni, sei categorie percettive e cinque livelli di gravità. Tra queste, 25 distorsioni sono calibrate con il dataset KADID-10k, e due distorsioni di rotazione aggiuntive utilizzano livelli monotoni basati sull'angolo. La valutazione ha incluso 18 VLM, comprendenti 17 modelli a pesi aperti di cinque diverse famiglie e un modello proprietario. Sebbene il modello con le migliori prestazioni abbia raggiunto un'accuratezza del solo 61,9%, è rimasto al di sotto del baselines di voto di maggioranza umano del 65,7% (con un'accuratezza media individuale umana del 60,2%), evidenziando le sfide ancora presenti nella comprensione percettiva di basso livello per i VLM.

Fatti principali

DistortBench contiene 13.500 domande a quattro opzioni.
Il benchmark copre 27 tipi di distorsioni, sei categorie percettive e cinque livelli di gravità.
25 distorsioni sono calibrate utilizzando KADID-10k.
Due distorsioni di rotazione utilizzano livelli monotoni basati sull'angolo.
Sono stati valutati 18 VLM, inclusi 17 modelli a pesi aperti di cinque famiglie e un modello proprietario.
Accuratezza del miglior modello: 61,9%.
Baseline di voto di maggioranza umano: 65,7%.
Accuratezza media individuale umana: 60,2%.

DistortBench: Nuovo benchmark testa la percezione delle distorsioni nelle immagini da parte dei VLM

Fatti principali

Entità

Istituzioni

Fonti