ARTFEED — Contemporary Art Intelligence

I LLM Mostrano un Bias di Autopreferenza nella Valutazione dell'Originalità delle Idee

ai-technology · 2026-04-25

Una recente indagine disponibile su arXiv esamina l'allineamento dei Large Language Models (LLM) con i valutatori umani nel giudicare l'originalità delle risposte durante un esercizio di pensiero divergente. Lo studio ha coinvolto l'analisi di 4.813 risposte al Alternate Uses Task (AUT) provenienti sia da individui altamente creativi che meno creativi, oltre che da ChatGPT-4o. Due studenti universitari, che hanno ricevuto una formazione approfondita, hanno svolto il ruolo di valutatori umani. La valutazione automatica è stata condotta utilizzando due sistemi su misura, OCSAI e CLAUS, insieme a ChatGPT-4o, che ha seguito le stesse istruzioni dei valutatori umani. I risultati indicano un preliminare bias di autopreferenza nei sistemi automatici, che favoriscono risposte allineate al proprio stile, sottolineando la necessità di una attenta calibrazione nell'impiego dei LLM per valutare la creatività.

Fatti principali

  • Lo studio indaga l'allineamento dei LLM con i valutatori umani nella valutazione dell'originalità
  • Analizzate 4.813 risposte al Alternate Uses Task
  • Risposte da esseri umani con creatività alta e bassa e da ChatGPT-4o
  • Valutatori umani: due studenti universitari con formazione intensiva
  • Valutatori automatici: OCSAI, CLAUS e ChatGPT-4o
  • Evidenza preliminare di bias di autopreferenza nei sistemi automatici
  • I sistemi automatici preferiscono risultati legati al proprio stile
  • Potenziale soluzione a costi, affaticamento e soggettività, ma con bias

Entità

Istituzioni

  • arXiv

Fonti