Attacco Backdoor a Etichette Pulite su Modelli Visione-Linguaggio tramite Modelli Diffusivi
Un team di ricercatori ha introdotto CBV, un attacco backdoor a etichette pulite che prende di mira i Modelli Visione-Linguaggio (VLM) utilizzando modelli diffusivi per creare campioni naturalmente avvelenati. A differenza dei metodi precedenti che si basano su indizi visivi e etichette testuali alterate, CBV modifica il punteggio nella fase di generazione inversa del modello diffusivo, incorporando caratteristiche innescate dall'immagine mantenendo l'allineamento tra immagini e testo. Questa tecnica mira a evitare il rilevamento generando campioni che sembrano non contaminati. I dettagli completi di questo metodo sono disponibili in un preprint su arXiv (2605.02202).
Fatti principali
- CBV sta per Attacco Backdoor a Etichette Pulite su VLM tramite Modelli Diffusivi.
- L'attacco prende di mira i Modelli Visione-Linguaggio (VLM) utilizzati nella didascalia delle immagini e nel VQA.
- Gli attacchi backdoor esistenti usano trigger visivi e etichette testuali modificate, causando disallineamenti rilevabili.
- CBV utilizza modelli diffusivi per generare campioni avvelenati tramite corrispondenza dei punteggi.
- L'attacco modifica il punteggio durante la generazione inversa per incorporare caratteristiche innescate.
- Le informazioni testuali del trigger vengono incorporate per aumentare l'efficacia.
- La ricerca è pubblicata come preprint su arXiv con ID 2605.02202.
- L'articolo è stato annunciato come nuovo su arXiv.
Entità
Istituzioni
- arXiv