Autoencoder sparsi a regolarizzazione grafica migliorano il controllo di sicurezza degli LLM
I ricercatori hanno introdotto una nuova tecnica per l'apprendimento di dizionari chiamata Autoencoder Sparsi a Regolarizzazione Grafica (GSAE), volta a migliorare il controllo di sicurezza nei modelli linguistici di grandi dimensioni (LLM). A differenza degli autoencoder sparsi tradizionali (SAE), che trattano le caratteristiche latenti come entità separate, GSAE affronta le complessità dei comportamenti di sicurezza come il rifiuto e la conformità dannosa smussando i vettori del decodificatore utilizzando un grafo di co-attivazione dei neuroni. Questo metodo impiega un controller runtime a due porte con il banco di direzioni risultante. I risultati dei test indicano che GSAE migliora il rifiuto selettivo su tre benchmark: JailbreakBench, HarmBench e XSTest. In particolare, quando GSAE ha sostituito il SAE standard nel pipeline Llama-3-8B, ha ottenuto un incremento di 20,1 punti su JailbreakBench. Questi risultati sono dettagliati in arXiv:2512.06655v3.
Fatti principali
- GSAE è un nuovo metodo di apprendimento di dizionari per il controllo di sicurezza degli LLM.
- I SAE standard trattano le caratteristiche latenti come indipendenti, non corrispondendo ai comportamenti di sicurezza.
- GSAE smussa i vettori del decodificatore SAE su un grafo di co-attivazione dei neuroni.
- Un controller runtime a due porte applica il banco di direzioni.
- GSAE migliora il rifiuto selettivo su JailbreakBench, HarmBench e XSTest.
- Su Llama-3-8B, GSAE migliora Δs di 20,1 punti su JailbreakBench.
- L'articolo è arXiv:2512.06655v3.
- Il metodo aumenta il rifiuto di richieste dannose mantenendo bassi i rifiuti benigni.
Entità
Istituzioni
- arXiv