EvoJail: Framework evolutivo per prompt di jailbreak diversificati nei LLM

ai-technology · 2026-05-07

Un team di ricercatori ha introdotto EvoJail, un framework progettato per generare jailbreak evolutivi guidati dalla fusione di istruzioni per modelli linguistici di grandi dimensioni (LLM). Questo framework definisce la creazione di prompt di jailbreak come un problema di ottimizzazione multi-obiettivo a scatola nera, impiegando algoritmi evolutivi per scoprire prompt che possono adattarsi a diverse versioni del modello e mostrare una gamma di strategie di attacco. Incorporando la generazione di prompt in un processo evolutivo ciclico, EvoJail supera le carenze dei metodi attuali riguardo all'adattabilità a modelli sottoposti a safety-finetuning in evoluzione e alla varietà dei prompt prodotti. Questa ricerca è disponibile su arXiv con numero di preprint 2605.02921.

Fatti principali

EvoJail è un framework di generazione di jailbreak evolutivo guidato dalla fusione di istruzioni.
Formalizza la generazione di prompt di jailbreak come un problema di ottimizzazione multi-obiettivo a scatola nera.
Utilizza algoritmi evolutivi per cercare prompt di jailbreak adattabili e diversificati.
Il framework affronta l'adattabilità a modelli sottoposti a safety-finetuning in evoluzione.
Affronta anche la diversità nei prompt generati per evitare pattern di attacco ristretti.
Il lavoro è pubblicato su arXiv come preprint 2605.02921.
L'articolo è categorizzato sotto il tipo di annuncio 'cross'.
Il framework integra la generazione di prompt di jailbreak in un ciclo evolutivo iterativo.

EvoJail: Framework evolutivo per prompt di jailbreak diversificati nei LLM

Fatti principali

Entità

Istituzioni

Fonti