I LLM Mostrano un Bias di Autopreferenza nella Valutazione dell'Originalità delle Idee

ai-technology · 2026-04-25

Una recente indagine disponibile su arXiv esamina l'allineamento dei Large Language Models (LLM) con i valutatori umani nel giudicare l'originalità delle risposte durante un esercizio di pensiero divergente. Lo studio ha coinvolto l'analisi di 4.813 risposte al Alternate Uses Task (AUT) provenienti sia da individui altamente creativi che meno creativi, oltre che da ChatGPT-4o. Due studenti universitari, che hanno ricevuto una formazione approfondita, hanno svolto il ruolo di valutatori umani. La valutazione automatica è stata condotta utilizzando due sistemi su misura, OCSAI e CLAUS, insieme a ChatGPT-4o, che ha seguito le stesse istruzioni dei valutatori umani. I risultati indicano un preliminare bias di autopreferenza nei sistemi automatici, che favoriscono risposte allineate al proprio stile, sottolineando la necessità di una attenta calibrazione nell'impiego dei LLM per valutare la creatività.

Fatti principali

Lo studio indaga l'allineamento dei LLM con i valutatori umani nella valutazione dell'originalità
Analizzate 4.813 risposte al Alternate Uses Task
Risposte da esseri umani con creatività alta e bassa e da ChatGPT-4o
Valutatori umani: due studenti universitari con formazione intensiva
Valutatori automatici: OCSAI, CLAUS e ChatGPT-4o
Evidenza preliminare di bias di autopreferenza nei sistemi automatici
I sistemi automatici preferiscono risultati legati al proprio stile
Potenziale soluzione a costi, affaticamento e soggettività, ma con bias

I LLM Mostrano un Bias di Autopreferenza nella Valutazione dell'Originalità delle Idee

Fatti principali

Entità

Istituzioni

Fonti