ARTFEED — Contemporary Art Intelligence

Vulnerabilità di Jailbreak nei LLM Collegata a Caratteristiche Interne dei Layer

ai-technology · 2026-04-29

Un recente studio pubblicato su arXiv indica che il successo dei tentativi di jailbreak nei modelli linguistici di grandi dimensioni (LLM) è influenzato da specifiche caratteristiche interne piuttosto che dai soli prompt utilizzati. I ricercatori introducono un processo in tre fasi per Gemma-2-2B utilizzando il dataset BeaverTails. Estraggono token allineati con concetti da output avversari, implementano tecniche di raggruppamento delle caratteristiche (tra cui cluster, linkage gerarchico e metodi basati su singolo token) per individuare sottogruppi di caratteristiche SAE in tutti i 26 layer, e migliorano le prestazioni del modello potenziando le caratteristiche più significative. I risultati rivelano che i layer 16-25 mostrano una maggiore suscettibilità.

Fatti principali

  • Lo studio identifica caratteristiche interne che causano vulnerabilità di jailbreak nei LLM
  • Pipeline in tre fasi applicata a Gemma-2-2B utilizzando il dataset BeaverTails
  • Tre strategie di raggruppamento delle caratteristiche: cluster, linkage gerarchico, basato su singolo token
  • Analizzati tutti i 26 layer del modello per sottogruppi di caratteristiche SAE
  • I layer 16-25 risultano relativamente più vulnerabili
  • Ricerca disponibile su arXiv con ID 2604.23130
  • Focus sulla comprensione meccanicistica piuttosto che su attacchi basati su prompt

Entità

Istituzioni

  • arXiv

Fonti