Compromesso Ricostruzione-Oscuramento negli Attacchi di Jailbreak agli MLLM

ai-technology · 2026-05-09

Un nuovo articolo su arXiv (2605.05709) rivela un compromesso fondamentale negli attacchi di jailbreak ai modelli linguistici multimodali di grandi dimensioni (MLLM). Gli attacchi di offuscamento dell'intento trasformano query dannose in input multimodali nascosti per eludere i filtri di sicurezza. Lo studio mostra che questi attacchi sono governati da un compromesso ricostruzione-oscuramento: l'input trasformato deve nascondere l'intento dannoso pur rimanendo recuperabile. L'analisi di tre metodi black-box ha rilevato che le trasformazioni esistenti faticano a bilanciare questo compromesso. Le varianti con caratteri rimossi raggiungono un migliore equilibrio. Gli autori propongono la costruzione di varianti consapevoli dell'oscuramento, che seleziona greedy diverse varianti con caratteri rimossi e basso allineamento con parole chiave dannose, implementata attraverso cinque strategie di prompting consapevoli della modalità.

Fatti principali

ID articolo: arXiv:2605.05709
Titolo: Nascondi, Ricostruisci, Jailbreak: Sfruttare il Compromesso Ricostruzione-Oscuramento negli MLLM
Si concentra sugli attacchi di jailbreak basati sull'offuscamento dell'intento ai modelli linguistici multimodali di grandi dimensioni (MLLM)
Identifica un compromesso ricostruzione-oscuramento che governa tali attacchi
Analizza tre metodi black-box rappresentativi
Rileva che le trasformazioni esistenti faticano a bilanciare il compromesso
Le varianti con caratteri rimossi raggiungono un migliore equilibrio
Propone la costruzione di varianti consapevoli dell'oscuramento con cinque strategie di prompting consapevoli della modalità

Compromesso Ricostruzione-Oscuramento negli Attacchi di Jailbreak agli MLLM

Fatti principali

Entità

Istituzioni

Fonti