SALO: Nuovo metodo di rilevamento degli attacchi AI jailbreak sfrutta le traiettorie di rifiuto latenti

ai-technology · 2026-05-07

Un team di ricercatori ha introdotto SALO (Sparse Activation Localization Operator), un innovativo rilevatore progettato per identificare attacchi jailbreak all'IA durante l'inferenza. A differenza dell'ingegneria delle rappresentazioni convenzionale, che si basa su vettori di rifiuto fissi derivati da rappresentazioni terminali, questo approccio considera il rifiuto come un fenomeno dinamico e sparso. Utilizzando il Causal Tracing, i ricercatori hanno identificato una 'Traiettoria di Rifiuto'—una firma a monte consistente che persiste anche quando attacchi avversari come GCG attenuano i segnali terminali. SALO cattura efficacemente questi pattern sottostanti, migliorando i meccanismi di difesa contro attacchi di decodifica forzata e aumentando i tassi di rilevamento da quasi lo 0% a oltre il 90% in situazioni in cui i metodi dipendenti dallo stato terminale falliscono. La ricerca è pubblicata su arXiv nei campi dell'informatica, crittografia e sicurezza.

Fatti principali

SALO è un rilevatore di jailbreak durante l'inferenza
Il rifiuto è trattato come un processo dinamico e sparso
Il Causal Tracing rivela una persistente Traiettoria di Rifiuto a monte
Attacchi avversari come GCG possono sopprimere i segnali di rifiuto terminali
SALO migliora i tassi di rilevamento da ~0% a >90%
Il metodo recupera la difesa contro attacchi di decodifica forzata
L'articolo è su arXiv sotto cs.CR
L'ingegneria delle rappresentazioni utilizza tipicamente vettori di rifiuto statici

SALO: Nuovo metodo di rilevamento degli attacchi AI jailbreak sfrutta le traiettorie di rifiuto latenti

Fatti principali

Entità

Istituzioni

Fonti