Nuovo benchmark mette alla prova il giudizio estetico dell'IA contro esperti umani

publication · 2026-05-14

Un nuovo dataset, noto come Visual Aesthetic Benchmark (VAB), è stato sviluppato da ricercatori per valutare la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) di formulare valutazioni estetiche simili a quelle di esperti umani. Questo studio, apparso su arXiv, critica il metodo prevalente di riassumere le valutazioni estetiche in un unico punteggio per ogni immagine. In un esperimento controllato con otto annotatori esperti, le classificazioni basate sui punteggi hanno mostrato uno scarso allineamento con i confronti diretti degli stessi esperti. La classificazione diretta ha prodotto un accordo significativamente maggiore tra gli annotatori riguardo alle immagini migliori e peggiori. Il VAB comprende 400 compiti e 1.195 immagini provenienti da belle arti, fotografia e illustrazione, con etichette che riflettono il consenso di dieci esperti indipendenti, con l'obiettivo di migliorare l'accuratezza del giudizio estetico nell'IA.

Fatti principali

Introdotto il Visual Aesthetic Benchmark (VAB)
Valuta gli MLLM sul giudizio estetico
Studio pubblicato su arXiv
Otto annotatori esperti hanno partecipato
Le classificazioni derivate dai punteggi si allineano poco con i confronti diretti
La classificazione diretta produce un maggiore accordo tra annotatori
Il VAB contiene 400 compiti e 1.195 immagini
Le immagini spaziano tra belle arti, fotografia e illustrazione
Le etichette derivano dal consenso di dieci annotatori esperti

Nuovo benchmark mette alla prova il giudizio estetico dell'IA contro esperti umani

Fatti principali

Entità

Istituzioni

Fonti