XL-SafetyBench: Benchmark di Sicurezza LLM Cross-Culturale con 5.500 Casi di Test

ai-technology · 2026-05-09

Un nuovo benchmark, XL-SafetyBench, valuta la sicurezza degli LLM in 10 coppie paese-lingua con 5.500 casi di test. Include un Jailbreak Benchmark di prompt avversari e un Cultural Benchmark che incorpora sensibilità locali in richieste innocue. Ogni elemento è costruito tramite un processo multi-fase con scoperta assistita da LLM, validazione automatica e doppi annotatori madrelingua per paese. Due nuove metriche, Neutral-Safe Rate (NSR) e Cultural Sensitivity Rate (CSR), completano l'Attack Success Rate (ASR) per distinguere il rifiuto basato su principi dal fallimento di comprensione. Il benchmark testa 10 LLM di frontiera e 27 locali.

Fatti principali

XL-SafetyBench include 5.500 casi di test in 10 coppie paese-lingua.
Comprende un Jailbreak Benchmark e un Cultural Benchmark.
Ogni elemento utilizza scoperta assistita da LLM, validazione automatica e doppi annotatori madrelingua.
Due nuove metriche: Neutral-Safe Rate (NSR) e Cultural Sensitivity Rate (CSR).
Valuta 10 LLM di frontiera e 27 locali.
Affronta il bias anglocentrico negli attuali benchmark di sicurezza LLM.
Si concentra su danni specifici per paese e sensibilità culturali incorporate.
Pubblicato su arXiv con ID 2605.05662.

XL-SafetyBench: Benchmark di Sicurezza LLM Cross-Culturale con 5.500 Casi di Test

Fatti principali

Entità

Istituzioni

Fonti