Il Chain-of-Thought Prompting non riesce a ridurre i bias di genere nei LLM

ai-technology · 2026-05-22

Uno studio recente pubblicato su arXiv (2605.20410) indica che il Chain-of-Thought (CoT) prompting non riduce in modo affidabile i bias di genere nei grandi modelli linguistici (LLM). Integrando valutazioni di benchmark con interpretabilità meccanicistica e un'analisi dei fallimenti delle catene di ragionamento, i ricercatori hanno scoperto che, sebbene il CoT possa bilanciare azioni distorte in specifici cluster di testine di attenzione, i bias di genere sono ancora radicati nelle rappresentazioni nascoste. I risultati confermano che i bias stereotipici continuano a esistere in vari benchmark, contraddicendo le affermazioni secondo cui il CoT allevia con successo i bias.

Fatti principali

L'articolo arXiv 2605.20410 indaga gli effetti del CoT prompting sui bias di genere nei LLM.
Il CoT prompting non riduce costantemente il divario di bias.
L'analisi meccanicistica mostra che i bias rimangono nelle rappresentazioni nascoste nonostante le testine di attenzione bilanciate.
Lo studio combina valutazione di benchmark, interpretabilità meccanicistica e analisi dei fallimenti delle catene di ragionamento.
I bias stereotipici sono confermati in più benchmark.
La ricerca mette in discussione le precedenti ipotesi sul CoT come tecnica di mitigazione dei bias.
I risultati evidenziano i limiti delle valutazioni superficiali dei bias.
Implicazioni per l'implementazione dei LLM in contesti socialmente sensibili.

Il Chain-of-Thought Prompting non riesce a ridurre i bias di genere nei LLM

Fatti principali

Entità

Istituzioni

Fonti