Autoencoder sparsi a regolarizzazione grafica migliorano il controllo di sicurezza degli LLM

ai-technology · 2026-05-18

I ricercatori hanno introdotto una nuova tecnica per l'apprendimento di dizionari chiamata Autoencoder Sparsi a Regolarizzazione Grafica (GSAE), volta a migliorare il controllo di sicurezza nei modelli linguistici di grandi dimensioni (LLM). A differenza degli autoencoder sparsi tradizionali (SAE), che trattano le caratteristiche latenti come entità separate, GSAE affronta le complessità dei comportamenti di sicurezza come il rifiuto e la conformità dannosa smussando i vettori del decodificatore utilizzando un grafo di co-attivazione dei neuroni. Questo metodo impiega un controller runtime a due porte con il banco di direzioni risultante. I risultati dei test indicano che GSAE migliora il rifiuto selettivo su tre benchmark: JailbreakBench, HarmBench e XSTest. In particolare, quando GSAE ha sostituito il SAE standard nel pipeline Llama-3-8B, ha ottenuto un incremento di 20,1 punti su JailbreakBench. Questi risultati sono dettagliati in arXiv:2512.06655v3.

Fatti principali

GSAE è un nuovo metodo di apprendimento di dizionari per il controllo di sicurezza degli LLM.
I SAE standard trattano le caratteristiche latenti come indipendenti, non corrispondendo ai comportamenti di sicurezza.
GSAE smussa i vettori del decodificatore SAE su un grafo di co-attivazione dei neuroni.
Un controller runtime a due porte applica il banco di direzioni.
GSAE migliora il rifiuto selettivo su JailbreakBench, HarmBench e XSTest.
Su Llama-3-8B, GSAE migliora Δs di 20,1 punti su JailbreakBench.
L'articolo è arXiv:2512.06655v3.
Il metodo aumenta il rifiuto di richieste dannose mantenendo bassi i rifiuti benigni.

Autoencoder sparsi a regolarizzazione grafica migliorano il controllo di sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti