ARTFEED — Contemporary Art Intelligence

Mappatura delle impronte di bias negli LLM: localizzare gli stereotipi nelle reti neurali

ai-technology · 2026-04-24

Un nuovo studio indaga dove risiedono gli stereotipi all'interno dei grandi modelli linguistici, in particolare GPT-2 Small e Llama 3.2. I ricercatori mirano a individuare attivazioni neuronali contrastive e testine di attenzione che codificano output distorti, chiamandoli 'impronte di bias'. Il lavoro fornisce spunti iniziali per mitigare i bias sociali dannosi nei sistemi di IA.

Fatti principali

  • Lo studio si concentra su GPT-2 Small e Llama 3.2
  • Indaga i meccanismi interni per le attivazioni legate agli stereotipi
  • Due approcci: attivazioni neuronali contrastive e testine di attenzione
  • Il termine 'impronte di bias' viene usato per descrivere pattern neurali distorti
  • Obiettivo: fornire spunti iniziali per mitigare gli stereotipi
  • Pubblicato su arXiv sotto Computer Science > Computation and Language
  • Cronologia delle sottomissioni non specificata oltre la data del preprint

Entità

Istituzioni

  • arXiv

Fonti