I fumetti minacciano la sicurezza dell'IA multimodale
Uno studio recente pubblicato su arXiv indica che le narrazioni visive in stile fumetto possono eludere efficacemente le misure di sicurezza nei modelli linguistici multimodali di grandi dimensioni (MLLM). I ricercatori hanno introdotto ComicJailbreak, che consiste in 1.167 scenari di attacco categorizzati in 10 tipi di danno e 5 configurazioni di compito, integrando obiettivi dannosi all'interno di semplici fumetti a tre pannelli. Valutando 15 MLLM avanzati (6 commerciali e 9 open-source), gli assalti basati su fumetti hanno mostrato tassi di successo simili a quelli di robusti jailbreak basati su regole, con tassi di successo d'insieme superiori al 90% per diversi modelli commerciali. Sebbene le attuali strategie di difesa siano state efficaci contro questi fumetti dannosi, hanno comportato compromessi nelle prestazioni. Questo studio sottolinea una nuova vulnerabilità di sicurezza nei MLLM quando si trovano ad affrontare comandi visivamente fondati.
Fatti principali
- Il benchmark ComicJailbreak include 1.167 istanze di attacco
- Copre 10 categorie di danno e 5 configurazioni di compito
- Testato su 15 MLLM all'avanguardia (6 commerciali, 9 open-source)
- Tassi di successo d'insieme superiori al 90% su diversi modelli commerciali
- Gli attacchi basati su fumetti eguagliano i robusti jailbreak basati su regole
- Superano le baseline di testo semplice e immagini casuali
- Le difese esistenti sono efficaci ma inducono compromessi
- Studio pubblicato su arXiv (2603.21697)
Entità
Istituzioni
- arXiv
- JailbreakBench
- JailbreakV