ARTFEED — Contemporary Art Intelligence

Robustezza Multimodale contro i Jailbreak nei Modelli Visione-Linguaggio

ai-technology · 2026-05-28

Uno studio recente, disponibile come preprint arXiv 2605.27932, esamina la sicurezza del ragionamento think-with-image nei grandi modelli visione-linguaggio (VLM). Esplora quattro diversi metodi di inferenza: generare risposte dirette, utilizzare turni precedenti solo testuali, manipolare stati visivi e invocare strumenti di immagine esterni. I risultati mostrano che l'interazione diretta con strumenti di immagine porta ai tassi di successo degli attacchi più bassi, riducendo i tentativi di jailbreak di circa il 30% in media su diversi VLM. È interessante notare che, anche quando l'output dello strumento viene modificato o considerato non sicuro, i tassi di successo degli attacchi rimangono bassi. Tuttavia, aumentano a livelli simili alla risposta diretta quando si fa affidamento su turni precedenti solo testuali. Ciò evidenzia l'importanza di progettare processi per migliorare la sicurezza multimodale.

Fatti principali

  • 1. Lo studio esamina la sicurezza del ragionamento think-with-image nei VLM.
  • 2. Quattro paradigmi di inferenza confrontati: risposta diretta, turno precedente solo testuale, manipolazione dello stato visivo, invocazione esplicita di strumenti di immagine.
  • 3. L'interazione esplicita con strumenti di immagine produce il tasso di successo degli attacchi più basso.
  • 4. Il successo dei jailbreak è ridotto di circa il 30% relativo in media.
  • 5. Il tasso di successo degli attacchi rimane basso anche quando l'output dello strumento viene sovrascritto o è insicuro.
  • 6. I controlli basati su turni precedenti solo testuali ripristinano un tasso di successo degli attacchi quasi pari alla risposta diretta.
  • 7. Il tasso di successo degli attacchi più basso non è spiegato dal contenuto dell'output dello strumento.
  • 8. La ricerca è pubblicata su arXiv (2605.27932).

Entità

Istituzioni

  • arXiv

Fonti