Nuovo benchmark mette alla prova il giudizio estetico dell'IA contro esperti umani
Un nuovo dataset, noto come Visual Aesthetic Benchmark (VAB), è stato sviluppato da ricercatori per valutare la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) di formulare valutazioni estetiche simili a quelle di esperti umani. Questo studio, apparso su arXiv, critica il metodo prevalente di riassumere le valutazioni estetiche in un unico punteggio per ogni immagine. In un esperimento controllato con otto annotatori esperti, le classificazioni basate sui punteggi hanno mostrato uno scarso allineamento con i confronti diretti degli stessi esperti. La classificazione diretta ha prodotto un accordo significativamente maggiore tra gli annotatori riguardo alle immagini migliori e peggiori. Il VAB comprende 400 compiti e 1.195 immagini provenienti da belle arti, fotografia e illustrazione, con etichette che riflettono il consenso di dieci esperti indipendenti, con l'obiettivo di migliorare l'accuratezza del giudizio estetico nell'IA.
Fatti principali
- Introdotto il Visual Aesthetic Benchmark (VAB)
- Valuta gli MLLM sul giudizio estetico
- Studio pubblicato su arXiv
- Otto annotatori esperti hanno partecipato
- Le classificazioni derivate dai punteggi si allineano poco con i confronti diretti
- La classificazione diretta produce un maggiore accordo tra annotatori
- Il VAB contiene 400 compiti e 1.195 immagini
- Le immagini spaziano tra belle arti, fotografia e illustrazione
- Le etichette derivano dal consenso di dieci annotatori esperti
Entità
Istituzioni
- arXiv