Vulnerabilità di Jailbreak nei LLM Collegata a Caratteristiche Interne dei Layer

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv indica che il successo dei tentativi di jailbreak nei modelli linguistici di grandi dimensioni (LLM) è influenzato da specifiche caratteristiche interne piuttosto che dai soli prompt utilizzati. I ricercatori introducono un processo in tre fasi per Gemma-2-2B utilizzando il dataset BeaverTails. Estraggono token allineati con concetti da output avversari, implementano tecniche di raggruppamento delle caratteristiche (tra cui cluster, linkage gerarchico e metodi basati su singolo token) per individuare sottogruppi di caratteristiche SAE in tutti i 26 layer, e migliorano le prestazioni del modello potenziando le caratteristiche più significative. I risultati rivelano che i layer 16-25 mostrano una maggiore suscettibilità.

Fatti principali

Lo studio identifica caratteristiche interne che causano vulnerabilità di jailbreak nei LLM
Pipeline in tre fasi applicata a Gemma-2-2B utilizzando il dataset BeaverTails
Tre strategie di raggruppamento delle caratteristiche: cluster, linkage gerarchico, basato su singolo token
Analizzati tutti i 26 layer del modello per sottogruppi di caratteristiche SAE
I layer 16-25 risultano relativamente più vulnerabili
Ricerca disponibile su arXiv con ID 2604.23130
Focus sulla comprensione meccanicistica piuttosto che su attacchi basati su prompt

Vulnerabilità di Jailbreak nei LLM Collegata a Caratteristiche Interne dei Layer

Fatti principali

Entità

Istituzioni

Fonti