Gli Autoencoder Sparse Riducono la Vulnerabilità ai Jailbreak nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-22

L'integrazione di Autoencoder Sparse (SAE) pre-addestrati nei flussi residui dei transformer durante l'inferenza aumenta significativamente la resilienza dei Modelli Linguistici di Grande Dimensione (LLM) agli attacchi jailbreak. Questo approccio, applicato a modelli come Gemma, LLaMA, Mistral e Qwen, mantiene i pesi originali del modello ed è stato testato contro potenti attacchi white-box, GCG e BEAST, insieme a tre valutazioni black-box. I modelli potenziati con SAE hanno dimostrato una riduzione fino a cinque volte dei tassi di successo dei jailbreak e una diminuita trasferibilità degli attacchi. È emersa una chiara relazione dose-risposta monotona, indicando che una maggiore sparsità L0 negli SAE porta a una ridotta efficacia degli attacchi. La ricerca, disponibile su arXiv (identificatore 2604.18756v1), sottolinea la capacità degli SAE di rafforzare la sicurezza degli LLM senza necessità di riaddestramento.

Fatti principali

Gli Autoencoder Sparse (SAE) integrati durante l'inferenza riducono i tassi di successo dei jailbreak fino a 5 volte.
Il metodo è stato testato sulle famiglie di modelli Gemma, LLaMA, Mistral e Qwen.
Le difese sono state valutate contro gli attacchi white-box GCG e BEAST e tre benchmark black-box.
L'approccio non modifica i pesi del modello né blocca i gradienti.
L'aumento della sparsità L0 negli SAE riduce monotonicamente il successo degli attacchi.
Gli strati intermedi offrono il miglior equilibrio tra robustezza difensiva e prestazioni pulite.
La tecnica riduce anche la trasferibilità degli attacchi tra modelli diversi.
Lo studio è documentato nel preprint arXiv 2604.18756v1.

Gli Autoencoder Sparse Riducono la Vulnerabilità ai Jailbreak nei Modelli Linguistici di Grande Dimensione

Fatti principali

Entità

Istituzioni

Fonti