Nuovo quadro di valutazione dei bias degli LLM in diversi casi d'uso
Un nuovo quadro decisionale è stato sviluppato dai ricercatori per aiutare nella selezione di metriche di bias ed equità per i modelli linguistici di grandi dimensioni (LLM), adattato a specifici contesti di implementazione. Questo quadro allinea le applicazioni degli LLM, caratterizzate dal modello e dalla demografia dei prompt, con metriche pertinenti che tengono conto del tipo di compito, delle menzioni di attributi protetti e delle priorità degli stakeholder. Affronta questioni come tossicità, stereotipizzazione, iniquità controfattuale e danni allocativi, introducendo metriche innovative che utilizzano classificatori di stereotipi e similarità testuale controfattuale. Inoltre, è stata lanciata una libreria Python open-source chiamata langfair per l'implementazione pratica. Esperimenti che coinvolgono cinque LLM e cinque popolazioni di prompt rivelano che le prestazioni di benchmark da sole non sono sufficienti per valutare accuratamente i rischi di equità.
Fatti principali
- Il quadro decisionale mappa i casi d'uso degli LLM a metriche di bias ed equità
- Considera il tipo di compito, le menzioni di attributi protetti e le priorità degli stakeholder
- Affronta tossicità, stereotipizzazione, iniquità controfattuale e danni allocativi
- Introduce metriche innovative basate su classificatori di stereotipi e similarità testuale controfattuale
- Rilasciata la libreria Python open-source langfair
- Esperimenti su cinque LLM e cinque popolazioni di prompt
- I rischi di equità non sono valutati in modo affidabile solo dalle prestazioni di benchmark
- Pubblicato su arXiv con ID 2407.10853
Entità
Istituzioni
- arXiv