Robustezza Multimodale contro i Jailbreak nei Modelli Visione-Linguaggio
Uno studio recente, disponibile come preprint arXiv 2605.27932, esamina la sicurezza del ragionamento think-with-image nei grandi modelli visione-linguaggio (VLM). Esplora quattro diversi metodi di inferenza: generare risposte dirette, utilizzare turni precedenti solo testuali, manipolare stati visivi e invocare strumenti di immagine esterni. I risultati mostrano che l'interazione diretta con strumenti di immagine porta ai tassi di successo degli attacchi più bassi, riducendo i tentativi di jailbreak di circa il 30% in media su diversi VLM. È interessante notare che, anche quando l'output dello strumento viene modificato o considerato non sicuro, i tassi di successo degli attacchi rimangono bassi. Tuttavia, aumentano a livelli simili alla risposta diretta quando si fa affidamento su turni precedenti solo testuali. Ciò evidenzia l'importanza di progettare processi per migliorare la sicurezza multimodale.
Fatti principali
- 1. Lo studio esamina la sicurezza del ragionamento think-with-image nei VLM.
- 2. Quattro paradigmi di inferenza confrontati: risposta diretta, turno precedente solo testuale, manipolazione dello stato visivo, invocazione esplicita di strumenti di immagine.
- 3. L'interazione esplicita con strumenti di immagine produce il tasso di successo degli attacchi più basso.
- 4. Il successo dei jailbreak è ridotto di circa il 30% relativo in media.
- 5. Il tasso di successo degli attacchi rimane basso anche quando l'output dello strumento viene sovrascritto o è insicuro.
- 6. I controlli basati su turni precedenti solo testuali ripristinano un tasso di successo degli attacchi quasi pari alla risposta diretta.
- 7. Il tasso di successo degli attacchi più basso non è spiegato dal contenuto dell'output dello strumento.
- 8. La ricerca è pubblicata su arXiv (2605.27932).
Entità
Istituzioni
- arXiv