Metriche di Jailbreak per LLM Messe in Discussione in un Nuovo Studio

other · 2026-05-16

Un nuovo preprint su arXiv (2605.14418) intitolato 'The Great Pretender: A Stochasticity Problem in LLM Jailbreak' mette in discussione l'affidabilità del tasso di successo degli attacchi (ASR) come metrica di riferimento per gli attacchi di jailbreak ai LLM. Gli autori notano che metodi provenienti da istituzioni rinomate come il BoN di Anthropic o il Crescendo di Microsoft Research spesso rivendicano punteggi ASR elevati contro LLM di livello industriale, ma questi punteggi non riflettono le prestazioni nel mondo reale. Ad esempio, un prompt di jailbreak può raggiungere un ASR dell'80% sulla carta contro un modello closed-source con barriere di sicurezza, ma riuscire solo il 50% delle volte (5 su 10 tentativi) contro un modello target aperto. Lo studio sostiene che l'ASR non è una quantità stabile, evidenziando un problema di stocasticità nella creazione e valutazione dei jailbreak.

Fatti principali

Il preprint arXiv:2605.14418 mette in discussione le metriche di jailbreak per LLM
Il tasso di successo degli attacchi (ASR) risulta instabile
Esempio: 80% ASR sulla carta contro 50% di successo consecutivo nella pratica
Citati metodi di Anthropic (BoN) e Microsoft Research (Crescendo)
Lo studio si concentra sulla stocasticità nella valutazione dei jailbreak

Metriche di Jailbreak per LLM Messe in Discussione in un Nuovo Studio

Fatti principali

Entità

Istituzioni

Fonti