Studio sui bias nei LLM rivela disparità di genere, razza ed età nei modelli del 2024
Una valutazione approfondita dei bias in quattro importanti modelli linguistici di grandi dimensioni lanciati nel 2024—Gemini 1.5 Pro, Llama 3 70B, Claude 3 Opus e GPT-4o—rivela disparità persistenti legate a genere, razza ed età in contesti occupazionali e criminali. La ricerca indica che i tentativi di ridurre i bias spesso portano a nuovi dilemmi di equità. Nei contesti occupazionali, questi modelli rappresentano personaggi femminili il 37% in più rispetto a quelli maschili, discostandosi dai dati del Bureau of Labor Statistics degli Stati Uniti. Per i contesti criminali, le discrepanze rispetto ai dati dell'FBI statunitense sono del 54% per il genere e del 28% per la razza. Lo studio, disponibile su arXiv (2409.14583v4), evidenzia sfide significative riguardanti l'usabilità, l'affidabilità e l'equità dei LLM, poiché questi influenzano sempre più le decisioni critiche.
Fatti principali
- Valutati i bias in Gemini 1.5 Pro, Llama 3 70B, Claude 3 Opus e GPT-4o
- Bias di genere valutato in scenari occupazionali
- Bias di genere, età e razza valutati in scenari criminali
- Deviazione del 37% dai dati del BLS statunitense nelle rappresentazioni di genere occupazionali
- Deviazione del 54% dai dati dell'FBI statunitense per il genere in scenari criminali
- Deviazione del 28% dai dati dell'FBI statunitense per la razza in scenari criminali
- Gli sforzi di debiasing creano nuovi compromessi di equità
- Articolo pubblicato su arXiv (2409.14583v4)
Entità
Istituzioni
- arXiv
- US Bureau of Labor Statistics
- US FBI