Nuovo Framework Attacca i Modelli Visione-Linguaggio tramite Doppie Modalità
I ricercatori hanno introdotto Multi-Modal Adversarial Synergy (MMAS), un framework black-box che genera simultaneamente perturbazioni avversarie per immagini e testo per attaccare i Grandi Modelli Visione-Linguaggio (LVLM). La perturbazione dell'immagine utilizza vincoli di texture basati su wavelet, mentre la perturbazione del testo è un prompt apprendibile, ottimizzato congiuntamente attraverso query al modello. Questo approccio mira alle vulnerabilità nella comprensione multimodale, ponendo rischi per applicazioni come la guida autonoma e la moderazione dei contenuti. Gli attacchi esistenti si concentrano tipicamente su singole modalità o richiedono accesso white-box. L'articolo è disponibile su arXiv con ID 2605.26501.
Fatti principali
- MMAS è un framework di attacco multimodale black-box.
- Genera perturbazioni avversarie universali per immagini e testo.
- La perturbazione dell'immagine utilizza vincoli di texture basati su wavelet.
- La perturbazione del testo è un prompt apprendibile.
- L'ottimizzazione è effettuata congiuntamente utilizzando query al modello.
- I LVLM sono vulnerabili nella comprensione multimodale.
- I rischi includono la guida autonoma e la moderazione dei contenuti.
- ID articolo: arXiv:2605.26501.
Entità
Istituzioni
- arXiv