MirrorCheck: Nuova Difesa contro gli Attacchi Avversari ai VLM

ai-technology · 2026-05-25

I ricercatori hanno introdotto MirrorCheck, un framework di rilevamento indipendente dal modello, progettato per proteggere i Vision-Language Models (VLM) da attacchi avversari avanzati, inclusi quelli adattivi. Questo framework utilizza modelli Text-to-Image (T2I) per ricreare immagini basate sulle didascalie generate dal VLM target, valutando successivamente la coerenza semantica analizzando gli embedding dello spazio delle caratteristiche sia delle immagini originali che di quelle generate. Per mitigare gli attacchi adattivi, MirrorCheck incorpora un meccanismo di difesa stocastico, che seleziona casualmente generatori T2I e codificatori di immagini da una collezione eterogenea di modelli. Inoltre, implementa una perturbazione One-Time-Use (OTU) sugli embedding del codificatore selezionato, controllata da un fattore di scala per ridurre l'efficacia dell'attacco. Il metodo si dimostra efficace sia in contesti unimodali che multimodali. Il documento di ricerca è disponibile su arXiv con ID 2406.09250.

Fatti principali

MirrorCheck è un framework di rilevamento indipendente dal modello per VLM.
Utilizza modelli T2I per rigenerare immagini dalle didascalie.
La coerenza semantica è valutata tramite embedding dello spazio delle caratteristiche.
La difesa stocastica seleziona casualmente generatori T2I e codificatori.
Viene applicata una perturbazione One-Time-Use (OTU) agli embedding del codificatore.
Il framework funziona in contesti unimodali e multimodali.
L'articolo è su arXiv: 2406.09250.
Affronta attacchi avversari adattivi.

MirrorCheck: Nuova Difesa contro gli Attacchi Avversari ai VLM

Fatti principali

Entità

Istituzioni

Fonti