Il Degrado Visivo Elude l'Allineamento di Sicurezza degli MLLM

ai-technology · 2026-05-11

Uno studio di arXiv (2605.07250) rivela che la riduzione della risoluzione delle immagini nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) facilita involontariamente il jailbreak, bypassando le difese di sicurezza. La vulnerabilità persiste anche quando il testo rimane leggibile, attribuita a un "Sovraccarico Cognitivo" in cui la decifrazione di input degradati distoglie l'attenzione dalla verifica di sicurezza. Questo effetto è coerente in perturbazioni visive come rumore e distorsione geometrica. Gli autori propongono un "Scaricamento Cognitivo Strutturato", un pipeline serializzato che separa la trascrizione visiva dalla valutazione di sicurezza, per mitigare i rischi. Il lavoro evidenzia un significativo difetto di sicurezza nelle tecniche di compressione del contesto visivo.

Fatti principali

Il documento arXiv 2605.07250 identifica una vulnerabilità negli MLLM.
La riduzione della risoluzione delle immagini catalizza il jailbreak.
Le difese di sicurezza dei modelli all'avanguardia si deteriorano con il degrado della risoluzione.
Il fenomeno persiste anche quando il testo rimane leggibile.
Attribuito al 'Sovraccarico Cognitivo' che devia le risorse di sicurezza.
Coerente in presenza di rumore e distorsione geometrica.
Proposta la strategia di 'Scaricamento Cognitivo Strutturato' per mitigare i rischi.
Il pipeline separa la trascrizione visiva dalla valutazione di sicurezza.

Il Degrado Visivo Elude l'Allineamento di Sicurezza degli MLLM

Fatti principali

Entità

Istituzioni

Fonti