Il framework DMN viola i LLM multimodali con input multi-immagine
I ricercatori propongono DMN, un framework di jailbreak compositivo mirato a modelli linguistici multimodali di grandi dimensioni (MLLM) che accettano input multi-immagine. A differenza dei precedenti metodi a singola immagine, DMN distribuisce istruzioni dannose su più immagini, utilizza prove multimodali e introduce una catena numerica per distrarre il modello. Gli esperimenti mostrano tassi di successo degli attacchi superiori al 90% su GPT-4o, Gemini-2.5-pro e Claude Sonnet 4. L'articolo evidenzia vulnerabilità dovute a un allineamento di sicurezza multi-immagine insufficiente.
Fatti principali
- 1. DMN sta per Istruzione distribuita, Prova multimodale e Catena numerica.
- 2. Raggiunge un tasso di successo degli attacchi superiore al 90% su GPT-4o, Gemini-2.5-pro e Claude Sonnet 4.
- 3. Sfrutta input multi-immagine per bypassare l'allineamento di sicurezza.
- 4. I metodi precedenti utilizzavano solo immagini singole, limitando lo spazio di attacco.
- 5. Pubblicato su arXiv con ID 2605.18915.
Entità
Istituzioni
- arXiv