ARTFEED — Contemporary Art Intelligence

Gli Autoencoder Sparse Riducono la Vulnerabilità ai Jailbreak nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-22

L'integrazione di Autoencoder Sparse (SAE) pre-addestrati nei flussi residui dei transformer durante l'inferenza aumenta significativamente la resilienza dei Modelli Linguistici di Grande Dimensione (LLM) agli attacchi jailbreak. Questo approccio, applicato a modelli come Gemma, LLaMA, Mistral e Qwen, mantiene i pesi originali del modello ed è stato testato contro potenti attacchi white-box, GCG e BEAST, insieme a tre valutazioni black-box. I modelli potenziati con SAE hanno dimostrato una riduzione fino a cinque volte dei tassi di successo dei jailbreak e una diminuita trasferibilità degli attacchi. È emersa una chiara relazione dose-risposta monotona, indicando che una maggiore sparsità L0 negli SAE porta a una ridotta efficacia degli attacchi. La ricerca, disponibile su arXiv (identificatore 2604.18756v1), sottolinea la capacità degli SAE di rafforzare la sicurezza degli LLM senza necessità di riaddestramento.

Fatti principali

  • Gli Autoencoder Sparse (SAE) integrati durante l'inferenza riducono i tassi di successo dei jailbreak fino a 5 volte.
  • Il metodo è stato testato sulle famiglie di modelli Gemma, LLaMA, Mistral e Qwen.
  • Le difese sono state valutate contro gli attacchi white-box GCG e BEAST e tre benchmark black-box.
  • L'approccio non modifica i pesi del modello né blocca i gradienti.
  • L'aumento della sparsità L0 negli SAE riduce monotonicamente il successo degli attacchi.
  • Gli strati intermedi offrono il miglior equilibrio tra robustezza difensiva e prestazioni pulite.
  • La tecnica riduce anche la trasferibilità degli attacchi tra modelli diversi.
  • Lo studio è documentato nel preprint arXiv 2604.18756v1.

Entità

Istituzioni

  • arXiv

Fonti