Attacchi Visivi Eludono l'Allineamento di Sicurezza nei Modelli Visione-Linguaggio
Una recente indagine pubblicata su arXiv (2605.00583) indica che l'aspetto visivo dei modelli visione-linguaggio (VLM) rappresenta una vulnerabilità significativa ma poco esaminata per eludere le misure di sicurezza. I ricercatori presentano quattro strategie di jailbreak che sfruttano l'elemento visivo: codificare direttive dannose in sequenze di simboli visivi accompagnate da una chiave di decodifica, sostituire oggetti pericolosi con alternative innocue (es. bomba → banana) e indurre azioni dannose usando il sostituto, sostituire testo dannoso nelle immagini con parole innocue mantenendo il significato originale, e puzzle di analogia visiva che richiedono di dedurre un concetto proibito. Testati su sei VLM avanzati, questi metodi visivi eludono efficacemente i protocolli di sicurezza, rivelando un divario nell'allineamento cross-modale dove l'addestramento alla sicurezza basato sul testo non si estende alle rappresentazioni visive di intenti dannosi. Ad esempio, la cifratura visiva raggiunge un tasso di successo del 40,9% contro Claude-Haiku-4.5, rispetto al 10,7% per i metodi solo testuali. Ciò sottolinea la necessità di un addestramento alla sicurezza multimodale che incorpori strategie di attacco visivo.
Fatti principali
- Quattro attacchi jailbreak sfruttano la modalità visiva dei VLM.
- Gli attacchi includono sequenze di simboli visivi, sostituti benigni, testo nascosto e puzzle di analogia visiva.
- Valutati su sei VLM all'avanguardia.
- La cifratura visiva raggiunge il 40,9% di successo dell'attacco su Claude-Haiku-4.5.
- Il tasso di successo dell'attacco solo testuale su Claude-Haiku-4.5 è del 10,7%.
- Divario nell'allineamento cross-modale: l'addestramento alla sicurezza testuale non si generalizza all'intento dannoso visivo.
- Studio pubblicato su arXiv con ID 2605.00583.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv