FRA-Attack: Metodo nel Dominio della Frequenza Migliora gli Attacchi Trasferibili su MLLM
I ricercatori propongono FRA-Attack, un metodo di allineamento avversario regolarizzato nel dominio della frequenza per migliorare gli attacchi mirati trasferibili contro modelli linguistici di grandi dimensioni multimodali (MLLM) closed-source. L'approccio affronta due sfide chiave: la ridondanza delle caratteristiche nel dominio spaziale e i segnali gradiente specifici del surrogato. Applicando un obiettivo DCT passa-alto sulle caratteristiche dei patch, FRA-Attack sopprime le strutture globali ridondanti e concentra la perdita sulle bande ad alta frequenza che catturano il focus visivo intrinseco condiviso tra i modelli. Ciò migliora la trasferibilità cross-modello delle perturbazioni ottimizzate su encoder surrogati open-source. Il metodo è dettagliato in un articolo su arXiv (2605.21541).
Fatti principali
- FRA-Attack è un metodo di allineamento avversario regolarizzato nel dominio della frequenza.
- Prende di mira attacchi trasferibili contro MLLM closed-source.
- Il metodo utilizza un obiettivo DCT passa-alto sulle caratteristiche dei patch.
- Sopprime le strutture globali ridondanti nelle caratteristiche del dominio spaziale.
- Concentra la perdita sulle bande ad alta frequenza che trasportano il focus visivo intrinseco.
- L'approccio migliora la trasferibilità cross-modello delle perturbazioni.
- Le perturbazioni sono ottimizzate su encoder surrogati open-source.
- L'articolo è disponibile su arXiv con ID 2605.21541.
Entità
Istituzioni
- arXiv