Mappatura delle impronte di bias negli LLM: localizzare gli stereotipi nelle reti neurali
Un nuovo studio indaga dove risiedono gli stereotipi all'interno dei grandi modelli linguistici, in particolare GPT-2 Small e Llama 3.2. I ricercatori mirano a individuare attivazioni neuronali contrastive e testine di attenzione che codificano output distorti, chiamandoli 'impronte di bias'. Il lavoro fornisce spunti iniziali per mitigare i bias sociali dannosi nei sistemi di IA.
Fatti principali
- Lo studio si concentra su GPT-2 Small e Llama 3.2
- Indaga i meccanismi interni per le attivazioni legate agli stereotipi
- Due approcci: attivazioni neuronali contrastive e testine di attenzione
- Il termine 'impronte di bias' viene usato per descrivere pattern neurali distorti
- Obiettivo: fornire spunti iniziali per mitigare gli stereotipi
- Pubblicato su arXiv sotto Computer Science > Computation and Language
- Cronologia delle sottomissioni non specificata oltre la data del preprint
Entità
Istituzioni
- arXiv