Il Chain-of-Thought Prompting non riesce a ridurre i bias di genere nei LLM
Uno studio recente pubblicato su arXiv (2605.20410) indica che il Chain-of-Thought (CoT) prompting non riduce in modo affidabile i bias di genere nei grandi modelli linguistici (LLM). Integrando valutazioni di benchmark con interpretabilità meccanicistica e un'analisi dei fallimenti delle catene di ragionamento, i ricercatori hanno scoperto che, sebbene il CoT possa bilanciare azioni distorte in specifici cluster di testine di attenzione, i bias di genere sono ancora radicati nelle rappresentazioni nascoste. I risultati confermano che i bias stereotipici continuano a esistere in vari benchmark, contraddicendo le affermazioni secondo cui il CoT allevia con successo i bias.
Fatti principali
- L'articolo arXiv 2605.20410 indaga gli effetti del CoT prompting sui bias di genere nei LLM.
- Il CoT prompting non riduce costantemente il divario di bias.
- L'analisi meccanicistica mostra che i bias rimangono nelle rappresentazioni nascoste nonostante le testine di attenzione bilanciate.
- Lo studio combina valutazione di benchmark, interpretabilità meccanicistica e analisi dei fallimenti delle catene di ragionamento.
- I bias stereotipici sono confermati in più benchmark.
- La ricerca mette in discussione le precedenti ipotesi sul CoT come tecnica di mitigazione dei bias.
- I risultati evidenziano i limiti delle valutazioni superficiali dei bias.
- Implicazioni per l'implementazione dei LLM in contesti socialmente sensibili.
Entità
Istituzioni
- arXiv