DistortBench: Nuovo benchmark testa la percezione delle distorsioni nelle immagini da parte dei VLM
Un nuovo benchmark diagnostico chiamato DistortBench è stato sviluppato da ricercatori per valutare la capacità dei modelli visione-linguaggio (VLM) di rilevare distorsioni nelle immagini senza un riferimento. Questo benchmark presenta 13.500 domande a scelta multipla che coprono 27 tipi di distorsioni, sei categorie percettive e cinque livelli di gravità. Tra queste, 25 distorsioni sono calibrate con il dataset KADID-10k, e due distorsioni di rotazione aggiuntive utilizzano livelli monotoni basati sull'angolo. La valutazione ha incluso 18 VLM, comprendenti 17 modelli a pesi aperti di cinque diverse famiglie e un modello proprietario. Sebbene il modello con le migliori prestazioni abbia raggiunto un'accuratezza del solo 61,9%, è rimasto al di sotto del baselines di voto di maggioranza umano del 65,7% (con un'accuratezza media individuale umana del 60,2%), evidenziando le sfide ancora presenti nella comprensione percettiva di basso livello per i VLM.
Fatti principali
- DistortBench contiene 13.500 domande a quattro opzioni.
- Il benchmark copre 27 tipi di distorsioni, sei categorie percettive e cinque livelli di gravità.
- 25 distorsioni sono calibrate utilizzando KADID-10k.
- Due distorsioni di rotazione utilizzano livelli monotoni basati sull'angolo.
- Sono stati valutati 18 VLM, inclusi 17 modelli a pesi aperti di cinque famiglie e un modello proprietario.
- Accuratezza del miglior modello: 61,9%.
- Baseline di voto di maggioranza umano: 65,7%.
- Accuratezza media individuale umana: 60,2%.
Entità
Istituzioni
- arXiv