Il framework DMN viola i LLM multimodali con input multi-immagine

ai-technology · 2026-05-20

I ricercatori propongono DMN, un framework di jailbreak compositivo mirato a modelli linguistici multimodali di grandi dimensioni (MLLM) che accettano input multi-immagine. A differenza dei precedenti metodi a singola immagine, DMN distribuisce istruzioni dannose su più immagini, utilizza prove multimodali e introduce una catena numerica per distrarre il modello. Gli esperimenti mostrano tassi di successo degli attacchi superiori al 90% su GPT-4o, Gemini-2.5-pro e Claude Sonnet 4. L'articolo evidenzia vulnerabilità dovute a un allineamento di sicurezza multi-immagine insufficiente.

Fatti principali

1. DMN sta per Istruzione distribuita, Prova multimodale e Catena numerica.
2. Raggiunge un tasso di successo degli attacchi superiore al 90% su GPT-4o, Gemini-2.5-pro e Claude Sonnet 4.
3. Sfrutta input multi-immagine per bypassare l'allineamento di sicurezza.
4. I metodi precedenti utilizzavano solo immagini singole, limitando lo spazio di attacco.
5. Pubblicato su arXiv con ID 2605.18915.

Il framework DMN viola i LLM multimodali con input multi-immagine

Fatti principali

Entità

Istituzioni

Fonti