SAEgis: Firewall con Autoencoder Sparso per Attacchi Avversari ai VLM
I ricercatori hanno sviluppato SAEgis, un innovativo sistema di rilevamento leggero progettato per identificare attacchi avversari ai modelli visione-linguaggio (VLM) utilizzando autoencoder sparsi. Integrando un modulo SAE in un VLM pre-addestrato, il sistema viene addestrato su obiettivi di ricostruzione standard, migliorando così la sua capacità di riconoscere segnali di attacco attraverso caratteristiche sparse apprese. I test indicano che SAEgis rileva efficacemente immagini alterate da avversari, anche quelle mai viste prima. Lo studio evidenzia la suscettibilità sia dei VLM proprietari che open-source a tali attacchi, sottolineando la necessità di implementare misure di sicurezza nelle applicazioni pratiche. I risultati sono disponibili su arXiv.
Fatti principali
- SAEgis è un nuovo framework di rilevamento degli attacchi avversari per VLM.
- Utilizza autoencoder sparsi come moduli plug-and-play.
- Il SAE è addestrato con obiettivi di ricostruzione standard.
- Le caratteristiche sparse apprese catturano segnali rilevanti per gli attacchi.
- SAEgis rileva perturbazioni avversarie anche su campioni mai visti.
- Gli esperimenti mostrano prestazioni forti in-domain e cross-domain.
- I VLM proprietari e open-weight rimangono altamente vulnerabili agli attacchi.
- L'articolo è pubblicato su arXiv con ID 2605.07447.
Entità
Istituzioni
- arXiv