RefusalBench: Benchmark rivela disparità nei tassi di rifiuto degli LLM su prompt di ricerca biologica
RefusalBench è un nuovo standard che valuta come i grandi modelli linguistici gestiscono domande di ricerca biologica con diversi livelli di rischio. Include 141 prompt suddivisi in 47 set abbinati, garantendo un approccio coerente mentre si modificano le categorie di rischio (benigno, borderline, dual-use). Una sezione speciale con 15 prompt per il controllo positivo aiuta a stabilire una linea di base; curiosamente, tre modelli non hanno rifiutato nessuno di questi. In una revisione del maggio 2026, 19 modelli avanzati hanno mostrato un'ampia gamma di tassi di rifiuto, dallo 0,1% al 94,6% per prompt identici. Mentre la località non ha influenzato questi tassi, il fornitore del modello sì, con l'API di Anthropic che mostra un odds ratio di previsione del rifiuto elevato di 21,03. Ciò evidenzia la necessità di valutazioni standardizzate.
Fatti principali
- RefusalBench è un benchmark a triplette abbinate di 141 prompt in 47 bundle
- I prompt variano solo per il livello di rischio biologico: benigno, borderline, dual-use
- È incluso un modulo di controllo positivo di 15 prompt che dovrebbero essere rifiutati
- Tre modelli non hanno rifiutato nemmeno i prompt che avrebbero dovuto rifiutare
- 19 modelli all'avanguardia sono stati valutati nell'istantanea del maggio 2026
- I tassi di rifiuto stretti vanno dallo 0,1% al 94,6% su prompt identici
- La giurisdizione non predice il rifiuto (p = 0,393)
- Lo stack API di Anthropic predice il rifiuto con OR = 21,03
Entità
Istituzioni
- Anthropic