Robustezza Multimodale contro i Jailbreak nei Modelli Visione-Linguaggio

ai-technology · 2026-05-28

Uno studio recente, disponibile come preprint arXiv 2605.27932, esamina la sicurezza del ragionamento think-with-image nei grandi modelli visione-linguaggio (VLM). Esplora quattro diversi metodi di inferenza: generare risposte dirette, utilizzare turni precedenti solo testuali, manipolare stati visivi e invocare strumenti di immagine esterni. I risultati mostrano che l'interazione diretta con strumenti di immagine porta ai tassi di successo degli attacchi più bassi, riducendo i tentativi di jailbreak di circa il 30% in media su diversi VLM. È interessante notare che, anche quando l'output dello strumento viene modificato o considerato non sicuro, i tassi di successo degli attacchi rimangono bassi. Tuttavia, aumentano a livelli simili alla risposta diretta quando si fa affidamento su turni precedenti solo testuali. Ciò evidenzia l'importanza di progettare processi per migliorare la sicurezza multimodale.

Fatti principali

1. Lo studio esamina la sicurezza del ragionamento think-with-image nei VLM.
2. Quattro paradigmi di inferenza confrontati: risposta diretta, turno precedente solo testuale, manipolazione dello stato visivo, invocazione esplicita di strumenti di immagine.
3. L'interazione esplicita con strumenti di immagine produce il tasso di successo degli attacchi più basso.
4. Il successo dei jailbreak è ridotto di circa il 30% relativo in media.
5. Il tasso di successo degli attacchi rimane basso anche quando l'output dello strumento viene sovrascritto o è insicuro.
6. I controlli basati su turni precedenti solo testuali ripristinano un tasso di successo degli attacchi quasi pari alla risposta diretta.
7. Il tasso di successo degli attacchi più basso non è spiegato dal contenuto dell'output dello strumento.
8. La ricerca è pubblicata su arXiv (2605.27932).

Robustezza Multimodale contro i Jailbreak nei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti