SAEgis: Firewall con Autoencoder Sparso per Attacchi Avversari ai VLM

ai-technology · 2026-05-11

I ricercatori hanno sviluppato SAEgis, un innovativo sistema di rilevamento leggero progettato per identificare attacchi avversari ai modelli visione-linguaggio (VLM) utilizzando autoencoder sparsi. Integrando un modulo SAE in un VLM pre-addestrato, il sistema viene addestrato su obiettivi di ricostruzione standard, migliorando così la sua capacità di riconoscere segnali di attacco attraverso caratteristiche sparse apprese. I test indicano che SAEgis rileva efficacemente immagini alterate da avversari, anche quelle mai viste prima. Lo studio evidenzia la suscettibilità sia dei VLM proprietari che open-source a tali attacchi, sottolineando la necessità di implementare misure di sicurezza nelle applicazioni pratiche. I risultati sono disponibili su arXiv.

Fatti principali

SAEgis è un nuovo framework di rilevamento degli attacchi avversari per VLM.
Utilizza autoencoder sparsi come moduli plug-and-play.
Il SAE è addestrato con obiettivi di ricostruzione standard.
Le caratteristiche sparse apprese catturano segnali rilevanti per gli attacchi.
SAEgis rileva perturbazioni avversarie anche su campioni mai visti.
Gli esperimenti mostrano prestazioni forti in-domain e cross-domain.
I VLM proprietari e open-weight rimangono altamente vulnerabili agli attacchi.
L'articolo è pubblicato su arXiv con ID 2605.07447.

SAEgis: Firewall con Autoencoder Sparso per Attacchi Avversari ai VLM

Fatti principali

Entità

Istituzioni

Fonti