Studio Mette in Discussione l'Uso dei Modelli Linguistici di Grandi Dimensioni come Surrogati Umani negli Esperimenti di Ricerca Comportamentale
Uno studio disponibile su arXiv indaga l'efficacia dei modelli linguistici di grandi dimensioni (LLM) come sostituti dei soggetti umani nella ricerca comportamentale. Analizzando gli output degli LLM insieme ai dati umani provenienti da un sondaggio incentrato sulla percezione dell'accuratezza, la ricerca utilizza prompt strutturati e metodi statistici uniformi. I risultati rivelano che, sebbene gli LLM possano imitare alcune tendenze direzionali osservate nelle risposte umane, l'entità degli effetti e i modelli di moderazione differiscono considerevolmente. Ciò suggerisce che, sebbene gli LLM possano riflettere le tendenze aggregate di aggiornamento delle credenze, non si allineano in modo coerente con gli effetti su scala umana. L'articolo, designato come arXiv:2604.15329v1, solleva preoccupazioni sull'affidabilità dei dati generati dagli LLM in contesti sperimentali.
Fatti principali
- I modelli linguistici di grandi dimensioni sono sempre più utilizzati per simulare le risposte umane nella ricerca comportamentale
- Lo studio confronta le risposte generate da LLM standard con le risposte umane provenienti da un esperimento di sondaggio canonico sulla percezione dell'accuratezza
- Ogni osservazione umana è stata convertita in un prompt strutturato per gli LLM
- I modelli hanno generato una singola variabile di risultato da 0 a 10 senza addestramento specifico per il compito
- Analisi statistiche identiche sono state applicate alle risposte umane e sintetiche
- Gli LLM riproducono diversi effetti direzionali osservati negli esseri umani
- L'entità degli effetti e i modelli di moderazione variano tra i diversi modelli
- Gli LLM standard catturano modelli aggregati di aggiornamento delle credenze in condizioni controllate, ma non corrispondono in modo coerente agli effetti su scala umana
Entità
Istituzioni
- arXiv