Studio rivela che il codice generato da LLM presenta gravi pregiudizi sociali
Un nuovo studio rivela che i grandi modelli linguistici (LLM) producono codice con significativi pregiudizi sociali, con punteggi di bias del codice che raggiungono fino al 60,58%. La ricerca, che estende il lavoro precedente su Solar, introduce SocialBias-Bench, un benchmark di 343 compiti di codifica reali in sette dimensioni demografiche. Valutando quattro LLM di spicco, lo studio ha riscontrato gravi pregiudizi in tutti i modelli. Interventi standard a livello di prompt come il ragionamento a catena di pensiero e l'assegnazione di persona equa hanno inavvertitamente amplificato i pregiudizi. Framework strutturati di processi software multi-agente hanno mostrato potenziale nel ridurre i pregiudizi quando i ruoli iniziali definivano correttamente i compiti. I risultati evidenziano una lacuna critica nelle valutazioni esistenti che si concentrano sulla correttezza funzionale ignorando l'equità nella generazione di codice per applicazioni incentrate sull'uomo.
Fatti principali
- Lo studio utilizza il benchmark SocialBias-Bench con 343 compiti di codifica
- Sette dimensioni demografiche valutate
- Punteggi di bias del codice fino al 60,58% in quattro LLM
- Il ragionamento a catena di pensiero e la persona equa amplificano i pregiudizi
- Pipeline multi-agente strutturate riducono i pregiudizi quando i ruoli iniziali definiscono correttamente
- Estende il lavoro precedente su Solar
- Focus su applicazioni incentrate sull'uomo dove l'equità demografica è critica
- Le valutazioni esistenti si concentrano sulla correttezza funzionale, non sui pregiudizi sociali
Entità
—