Gli Autoencoder Sparse Riducono la Vulnerabilità ai Jailbreak nei Modelli Linguistici di Grande Dimensione
L'integrazione di Autoencoder Sparse (SAE) pre-addestrati nei flussi residui dei transformer durante l'inferenza aumenta significativamente la resilienza dei Modelli Linguistici di Grande Dimensione (LLM) agli attacchi jailbreak. Questo approccio, applicato a modelli come Gemma, LLaMA, Mistral e Qwen, mantiene i pesi originali del modello ed è stato testato contro potenti attacchi white-box, GCG e BEAST, insieme a tre valutazioni black-box. I modelli potenziati con SAE hanno dimostrato una riduzione fino a cinque volte dei tassi di successo dei jailbreak e una diminuita trasferibilità degli attacchi. È emersa una chiara relazione dose-risposta monotona, indicando che una maggiore sparsità L0 negli SAE porta a una ridotta efficacia degli attacchi. La ricerca, disponibile su arXiv (identificatore 2604.18756v1), sottolinea la capacità degli SAE di rafforzare la sicurezza degli LLM senza necessità di riaddestramento.
Fatti principali
- Gli Autoencoder Sparse (SAE) integrati durante l'inferenza riducono i tassi di successo dei jailbreak fino a 5 volte.
- Il metodo è stato testato sulle famiglie di modelli Gemma, LLaMA, Mistral e Qwen.
- Le difese sono state valutate contro gli attacchi white-box GCG e BEAST e tre benchmark black-box.
- L'approccio non modifica i pesi del modello né blocca i gradienti.
- L'aumento della sparsità L0 negli SAE riduce monotonicamente il successo degli attacchi.
- Gli strati intermedi offrono il miglior equilibrio tra robustezza difensiva e prestazioni pulite.
- La tecnica riduce anche la trasferibilità degli attacchi tra modelli diversi.
- Lo studio è documentato nel preprint arXiv 2604.18756v1.
Entità
Istituzioni
- arXiv