DisaBench: Valutare i Danni legati alla Disabilità nei Modelli Linguistici
DisaBench è stato lanciato dai ricercatori come un framework di valutazione partecipativa volto a identificare i danni legati alla disabilità nei grandi modelli linguistici. Sviluppato in collaborazione con persone con disabilità e specialisti di red teaming, definisce dodici categorie di danno da disabilità e abbina prompt benigni e avversari in sette ambiti della vita. Il dataset comprende 175 prompt, con etichette annotate manualmente per 525 coppie prompt-risposta. La valutazione da parte di quattro annotatori con esperienze personali di disabilità ha rivelato variazioni significative nei tassi di danno in base al tipo di disabilità, effetti combinati in modalità non testuali e che il danno guidato dalla terminologia è influenzato da contesti culturali e temporali. Il framework evidenzia che il danno da disabilità è intrinsecamente personale, intersezionale e definito dalle comunità.
Fatti principali
- DisaBench è un framework di valutazione partecipativa per i danni legati alla disabilità nei LLM.
- Co-creato con persone con disabilità ed esperti di red teaming.
- Definisce dodici categorie di danno da disabilità.
- Abbina prompt benigni e avversari in sette ambiti della vita.
- Il dataset include 175 prompt con 525 coppie prompt-risposta annotate.
- Quattro valutatori con esperienza vissuta di disabilità hanno condotto le annotazioni.
- I tassi di danno variano nettamente in base al tipo di disabilità.
- Le valutazioni di sicurezza standard non rilevano danni sottili che solo l'esperienza di dominio può riconoscere.
Entità
Istituzioni
- arXiv