Attacco Backdoor a Etichette Pulite su Modelli Visione-Linguaggio tramite Modelli Diffusivi

ai-technology · 2026-05-06

Un team di ricercatori ha introdotto CBV, un attacco backdoor a etichette pulite che prende di mira i Modelli Visione-Linguaggio (VLM) utilizzando modelli diffusivi per creare campioni naturalmente avvelenati. A differenza dei metodi precedenti che si basano su indizi visivi e etichette testuali alterate, CBV modifica il punteggio nella fase di generazione inversa del modello diffusivo, incorporando caratteristiche innescate dall'immagine mantenendo l'allineamento tra immagini e testo. Questa tecnica mira a evitare il rilevamento generando campioni che sembrano non contaminati. I dettagli completi di questo metodo sono disponibili in un preprint su arXiv (2605.02202).

Fatti principali

CBV sta per Attacco Backdoor a Etichette Pulite su VLM tramite Modelli Diffusivi.
L'attacco prende di mira i Modelli Visione-Linguaggio (VLM) utilizzati nella didascalia delle immagini e nel VQA.
Gli attacchi backdoor esistenti usano trigger visivi e etichette testuali modificate, causando disallineamenti rilevabili.
CBV utilizza modelli diffusivi per generare campioni avvelenati tramite corrispondenza dei punteggi.
L'attacco modifica il punteggio durante la generazione inversa per incorporare caratteristiche innescate.
Le informazioni testuali del trigger vengono incorporate per aumentare l'efficacia.
La ricerca è pubblicata come preprint su arXiv con ID 2605.02202.
L'articolo è stato annunciato come nuovo su arXiv.

Attacco Backdoor a Etichette Pulite su Modelli Visione-Linguaggio tramite Modelli Diffusivi

Fatti principali

Entità

Istituzioni

Fonti