Nuovo attacco backdoor prende di mira i modelli autoregressivi unificati
Un nuovo attacco backdoor, denominato Token by Token Backdoor Attack (ToBAC), è stato svelato dai ricercatori, prendendo di mira per la prima volta i modelli autoregressivi unificati (UAM). Questi modelli transformer sono in grado di produrre simultaneamente token di testo e immagini in un unico passaggio autoregressivo, utilizzando parametri condivisi e un vocabolario multimodale. I risultati, pubblicati su arXiv, rivelano che caratteri apparentemente innocui o parole di uso comune possono innescare azioni dannose nella generazione autoregressiva di immagini, influenzando sia gli output visivi che testuali. Questa manipolazione aumenta la credibilità dei contenuti falsificati. L'attacco esamina tecniche di avvelenamento basate sia sui dati che sui modelli, sfruttando la struttura unificata per diffondere impatti dannosi attraverso varie modalità di output.
Fatti principali
- ToBAC è il primo attacco backdoor a prendere di mira i modelli autoregressivi unificati.
- Gli UAM generano token di testo e immagini in un unico passaggio autoregressivo.
- L'attacco utilizza caratteri innocui o parole comuni come trigger.
- Manipola sia gli output visivi che il testo di accompagnamento.
- Lo studio esplora strategie di avvelenamento basate sui dati e sui modelli.
- L'architettura unificata consente attacchi backdoor multimodali.
- La ricerca è stata pubblicata su arXiv con ID 2605.19227.
- L'attacco aumenta la percezione di autenticità dei contenuti fabbricati.
Entità
Istituzioni
- arXiv