Vulnerabilità di Jailbreak nei LLM Collegata a Caratteristiche Interne dei Layer
Un recente studio pubblicato su arXiv indica che il successo dei tentativi di jailbreak nei modelli linguistici di grandi dimensioni (LLM) è influenzato da specifiche caratteristiche interne piuttosto che dai soli prompt utilizzati. I ricercatori introducono un processo in tre fasi per Gemma-2-2B utilizzando il dataset BeaverTails. Estraggono token allineati con concetti da output avversari, implementano tecniche di raggruppamento delle caratteristiche (tra cui cluster, linkage gerarchico e metodi basati su singolo token) per individuare sottogruppi di caratteristiche SAE in tutti i 26 layer, e migliorano le prestazioni del modello potenziando le caratteristiche più significative. I risultati rivelano che i layer 16-25 mostrano una maggiore suscettibilità.
Fatti principali
- Lo studio identifica caratteristiche interne che causano vulnerabilità di jailbreak nei LLM
- Pipeline in tre fasi applicata a Gemma-2-2B utilizzando il dataset BeaverTails
- Tre strategie di raggruppamento delle caratteristiche: cluster, linkage gerarchico, basato su singolo token
- Analizzati tutti i 26 layer del modello per sottogruppi di caratteristiche SAE
- I layer 16-25 risultano relativamente più vulnerabili
- Ricerca disponibile su arXiv con ID 2604.23130
- Focus sulla comprensione meccanicistica piuttosto che su attacchi basati su prompt
Entità
Istituzioni
- arXiv