Compromesso Ricostruzione-Oscuramento negli Attacchi di Jailbreak agli MLLM
Un nuovo articolo su arXiv (2605.05709) rivela un compromesso fondamentale negli attacchi di jailbreak ai modelli linguistici multimodali di grandi dimensioni (MLLM). Gli attacchi di offuscamento dell'intento trasformano query dannose in input multimodali nascosti per eludere i filtri di sicurezza. Lo studio mostra che questi attacchi sono governati da un compromesso ricostruzione-oscuramento: l'input trasformato deve nascondere l'intento dannoso pur rimanendo recuperabile. L'analisi di tre metodi black-box ha rilevato che le trasformazioni esistenti faticano a bilanciare questo compromesso. Le varianti con caratteri rimossi raggiungono un migliore equilibrio. Gli autori propongono la costruzione di varianti consapevoli dell'oscuramento, che seleziona greedy diverse varianti con caratteri rimossi e basso allineamento con parole chiave dannose, implementata attraverso cinque strategie di prompting consapevoli della modalità.
Fatti principali
- ID articolo: arXiv:2605.05709
- Titolo: Nascondi, Ricostruisci, Jailbreak: Sfruttare il Compromesso Ricostruzione-Oscuramento negli MLLM
- Si concentra sugli attacchi di jailbreak basati sull'offuscamento dell'intento ai modelli linguistici multimodali di grandi dimensioni (MLLM)
- Identifica un compromesso ricostruzione-oscuramento che governa tali attacchi
- Analizza tre metodi black-box rappresentativi
- Rileva che le trasformazioni esistenti faticano a bilanciare il compromesso
- Le varianti con caratteri rimossi raggiungono un migliore equilibrio
- Propone la costruzione di varianti consapevoli dell'oscuramento con cinque strategie di prompting consapevoli della modalità
Entità
Istituzioni
- arXiv