SALO: Nuovo metodo di rilevamento degli attacchi AI jailbreak sfrutta le traiettorie di rifiuto latenti
Un team di ricercatori ha introdotto SALO (Sparse Activation Localization Operator), un innovativo rilevatore progettato per identificare attacchi jailbreak all'IA durante l'inferenza. A differenza dell'ingegneria delle rappresentazioni convenzionale, che si basa su vettori di rifiuto fissi derivati da rappresentazioni terminali, questo approccio considera il rifiuto come un fenomeno dinamico e sparso. Utilizzando il Causal Tracing, i ricercatori hanno identificato una 'Traiettoria di Rifiuto'—una firma a monte consistente che persiste anche quando attacchi avversari come GCG attenuano i segnali terminali. SALO cattura efficacemente questi pattern sottostanti, migliorando i meccanismi di difesa contro attacchi di decodifica forzata e aumentando i tassi di rilevamento da quasi lo 0% a oltre il 90% in situazioni in cui i metodi dipendenti dallo stato terminale falliscono. La ricerca è pubblicata su arXiv nei campi dell'informatica, crittografia e sicurezza.
Fatti principali
- SALO è un rilevatore di jailbreak durante l'inferenza
- Il rifiuto è trattato come un processo dinamico e sparso
- Il Causal Tracing rivela una persistente Traiettoria di Rifiuto a monte
- Attacchi avversari come GCG possono sopprimere i segnali di rifiuto terminali
- SALO migliora i tassi di rilevamento da ~0% a >90%
- Il metodo recupera la difesa contro attacchi di decodifica forzata
- L'articolo è su arXiv sotto cs.CR
- L'ingegneria delle rappresentazioni utilizza tipicamente vettori di rifiuto statici
Entità
Istituzioni
- arXiv