Studio rivela che il codice generato da LLM presenta gravi pregiudizi sociali

ai-technology · 2026-05-04

Un nuovo studio rivela che i grandi modelli linguistici (LLM) producono codice con significativi pregiudizi sociali, con punteggi di bias del codice che raggiungono fino al 60,58%. La ricerca, che estende il lavoro precedente su Solar, introduce SocialBias-Bench, un benchmark di 343 compiti di codifica reali in sette dimensioni demografiche. Valutando quattro LLM di spicco, lo studio ha riscontrato gravi pregiudizi in tutti i modelli. Interventi standard a livello di prompt come il ragionamento a catena di pensiero e l'assegnazione di persona equa hanno inavvertitamente amplificato i pregiudizi. Framework strutturati di processi software multi-agente hanno mostrato potenziale nel ridurre i pregiudizi quando i ruoli iniziali definivano correttamente i compiti. I risultati evidenziano una lacuna critica nelle valutazioni esistenti che si concentrano sulla correttezza funzionale ignorando l'equità nella generazione di codice per applicazioni incentrate sull'uomo.

Fatti principali

Lo studio utilizza il benchmark SocialBias-Bench con 343 compiti di codifica
Sette dimensioni demografiche valutate
Punteggi di bias del codice fino al 60,58% in quattro LLM
Il ragionamento a catena di pensiero e la persona equa amplificano i pregiudizi
Pipeline multi-agente strutturate riducono i pregiudizi quando i ruoli iniziali definiscono correttamente
Estende il lavoro precedente su Solar
Focus su applicazioni incentrate sull'uomo dove l'equità demografica è critica
Le valutazioni esistenti si concentrano sulla correttezza funzionale, non sui pregiudizi sociali

Entità

—

Fonti

arXiv cs.AI — 2026-05-04