XL-SafetyBench: Benchmark di Sicurezza LLM Cross-Culturale con 5.500 Casi di Test
Un nuovo benchmark, XL-SafetyBench, valuta la sicurezza degli LLM in 10 coppie paese-lingua con 5.500 casi di test. Include un Jailbreak Benchmark di prompt avversari e un Cultural Benchmark che incorpora sensibilità locali in richieste innocue. Ogni elemento è costruito tramite un processo multi-fase con scoperta assistita da LLM, validazione automatica e doppi annotatori madrelingua per paese. Due nuove metriche, Neutral-Safe Rate (NSR) e Cultural Sensitivity Rate (CSR), completano l'Attack Success Rate (ASR) per distinguere il rifiuto basato su principi dal fallimento di comprensione. Il benchmark testa 10 LLM di frontiera e 27 locali.
Fatti principali
- XL-SafetyBench include 5.500 casi di test in 10 coppie paese-lingua.
- Comprende un Jailbreak Benchmark e un Cultural Benchmark.
- Ogni elemento utilizza scoperta assistita da LLM, validazione automatica e doppi annotatori madrelingua.
- Due nuove metriche: Neutral-Safe Rate (NSR) e Cultural Sensitivity Rate (CSR).
- Valuta 10 LLM di frontiera e 27 locali.
- Affronta il bias anglocentrico negli attuali benchmark di sicurezza LLM.
- Si concentra su danni specifici per paese e sensibilità culturali incorporate.
- Pubblicato su arXiv con ID 2605.05662.
Entità
Istituzioni
- arXiv