Attacchi Visivi Eludono l'Allineamento di Sicurezza nei Modelli Visione-Linguaggio

ai-technology · 2026-05-04

Una recente indagine pubblicata su arXiv (2605.00583) indica che l'aspetto visivo dei modelli visione-linguaggio (VLM) rappresenta una vulnerabilità significativa ma poco esaminata per eludere le misure di sicurezza. I ricercatori presentano quattro strategie di jailbreak che sfruttano l'elemento visivo: codificare direttive dannose in sequenze di simboli visivi accompagnate da una chiave di decodifica, sostituire oggetti pericolosi con alternative innocue (es. bomba → banana) e indurre azioni dannose usando il sostituto, sostituire testo dannoso nelle immagini con parole innocue mantenendo il significato originale, e puzzle di analogia visiva che richiedono di dedurre un concetto proibito. Testati su sei VLM avanzati, questi metodi visivi eludono efficacemente i protocolli di sicurezza, rivelando un divario nell'allineamento cross-modale dove l'addestramento alla sicurezza basato sul testo non si estende alle rappresentazioni visive di intenti dannosi. Ad esempio, la cifratura visiva raggiunge un tasso di successo del 40,9% contro Claude-Haiku-4.5, rispetto al 10,7% per i metodi solo testuali. Ciò sottolinea la necessità di un addestramento alla sicurezza multimodale che incorpori strategie di attacco visivo.

Fatti principali

Quattro attacchi jailbreak sfruttano la modalità visiva dei VLM.
Gli attacchi includono sequenze di simboli visivi, sostituti benigni, testo nascosto e puzzle di analogia visiva.
Valutati su sei VLM all'avanguardia.
La cifratura visiva raggiunge il 40,9% di successo dell'attacco su Claude-Haiku-4.5.
Il tasso di successo dell'attacco solo testuale su Claude-Haiku-4.5 è del 10,7%.
Divario nell'allineamento cross-modale: l'addestramento alla sicurezza testuale non si generalizza all'intento dannoso visivo.
Studio pubblicato su arXiv con ID 2605.00583.
Il tipo di annuncio è cross.

Attacchi Visivi Eludono l'Allineamento di Sicurezza nei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti