ARTFEED — Contemporary Art Intelligence

Attacco Backdoor a Etichette Pulite su Modelli Visione-Linguaggio tramite Modelli Diffusivi

ai-technology · 2026-05-06

Un team di ricercatori ha introdotto CBV, un attacco backdoor a etichette pulite che prende di mira i Modelli Visione-Linguaggio (VLM) utilizzando modelli diffusivi per creare campioni naturalmente avvelenati. A differenza dei metodi precedenti che si basano su indizi visivi e etichette testuali alterate, CBV modifica il punteggio nella fase di generazione inversa del modello diffusivo, incorporando caratteristiche innescate dall'immagine mantenendo l'allineamento tra immagini e testo. Questa tecnica mira a evitare il rilevamento generando campioni che sembrano non contaminati. I dettagli completi di questo metodo sono disponibili in un preprint su arXiv (2605.02202).

Fatti principali

  • CBV sta per Attacco Backdoor a Etichette Pulite su VLM tramite Modelli Diffusivi.
  • L'attacco prende di mira i Modelli Visione-Linguaggio (VLM) utilizzati nella didascalia delle immagini e nel VQA.
  • Gli attacchi backdoor esistenti usano trigger visivi e etichette testuali modificate, causando disallineamenti rilevabili.
  • CBV utilizza modelli diffusivi per generare campioni avvelenati tramite corrispondenza dei punteggi.
  • L'attacco modifica il punteggio durante la generazione inversa per incorporare caratteristiche innescate.
  • Le informazioni testuali del trigger vengono incorporate per aumentare l'efficacia.
  • La ricerca è pubblicata come preprint su arXiv con ID 2605.02202.
  • L'articolo è stato annunciato come nuovo su arXiv.

Entità

Istituzioni

  • arXiv

Fonti