Mappatura delle impronte di bias negli LLM: localizzare gli stereotipi nelle reti neurali

ai-technology · 2026-04-24

Un nuovo studio indaga dove risiedono gli stereotipi all'interno dei grandi modelli linguistici, in particolare GPT-2 Small e Llama 3.2. I ricercatori mirano a individuare attivazioni neuronali contrastive e testine di attenzione che codificano output distorti, chiamandoli 'impronte di bias'. Il lavoro fornisce spunti iniziali per mitigare i bias sociali dannosi nei sistemi di IA.

Fatti principali

Lo studio si concentra su GPT-2 Small e Llama 3.2
Indaga i meccanismi interni per le attivazioni legate agli stereotipi
Due approcci: attivazioni neuronali contrastive e testine di attenzione
Il termine 'impronte di bias' viene usato per descrivere pattern neurali distorti
Obiettivo: fornire spunti iniziali per mitigare gli stereotipi
Pubblicato su arXiv sotto Computer Science > Computation and Language
Cronologia delle sottomissioni non specificata oltre la data del preprint

Mappatura delle impronte di bias negli LLM: localizzare gli stereotipi nelle reti neurali

Fatti principali

Entità

Istituzioni

Fonti