SafeSteer: Difesa a Livello di Decodifica per MLLM
I ricercatori hanno introdotto SafeSteer, un meccanismo di difesa a livello di decodifica per modelli linguistici multimodali di grandi dimensioni (MLLM) che affronta gli attacchi jailbreak senza costosi fine-tuning. Il metodo sfrutta un leggero Decoding-Probe per rilevare e correggere output dannosi durante il processo di decodifica, guidando iterativamente il modello verso la sicurezza. Il lavoro, pubblicato su arXiv (2605.11716), osserva che gli MLLM possono distinguere input dannosi da quelli innocui in fase di decodifica e che gli attacchi basati su immagini sono più subdoli. SafeSteer mira a superare i limiti delle difese attuali, che si basano su costoso fine-tuning o interventi post-hoc inefficienti e spesso comportano compromessi nelle prestazioni.
Fatti principali
- SafeSteer è un meccanismo di difesa a livello di decodifica per MLLM.
- Utilizza un leggero Decoding-Probe per rilevare e correggere output dannosi.
- Il metodo guida iterativamente la decodifica verso la sicurezza.
- Le difese attuali si basano su costoso fine-tuning o interventi post-hoc inefficienti.
- Gli MLLM possono distinguere input dannosi e innocui durante la decodifica.
- Gli attacchi basati su immagini sono più subdoli di quelli testuali.
- La ricerca è pubblicata su arXiv con ID 2605.11716.
- SafeSteer affronta nuovi attacchi senza compromessi nelle prestazioni.
Entità
Istituzioni
- arXiv