La Composizione Adattiva delle Istruzioni Aumenta la Diversità dei Jailbreak degli LLM

ai-technology · 2026-04-25

Un nuovo framework chiamato Adaptive Instruction Composition (AIC) migliora il red-teaming automatico dei grandi modelli linguistici combinando query dannose e tattiche crowdsourced in modo adattivo anziché casuale. L'approccio utilizza l'apprendimento per rinforzo per bilanciare esplorazione e sfruttamento in uno spazio combinatorio di istruzioni, guidando un LLM attaccante a generare jailbreak diversificati su misura per le vulnerabilità del bersaglio. Gli esperimenti mostrano che AIC supera sostanzialmente le combinazioni casuali in termini di efficacia e diversità. Il lavoro è stato pubblicato su arXiv (2604.21159) e rappresenta un passo verso una valutazione della sicurezza degli LLM più robusta.

Fatti principali

Adaptive Instruction Composition (AIC) è un nuovo framework per il red-teaming degli LLM.
Combina testi crowdsourced in modo adattivo usando l'apprendimento per rinforzo.
Il metodo ottimizza congiuntamente efficacia e diversità dei jailbreak.
Supera le combinazioni casuali in efficacia e diversità.
L'articolo è su arXiv con ID 2604.21159.
L'approccio affronta i limiti dei metodi precedenti basati su tentativi ed errori e combinazioni casuali.
L'apprendimento per rinforzo bilancia esplorazione e sfruttamento nello spazio delle istruzioni.
L'LLM attaccante è guidato verso generazioni diversificate su misura per le vulnerabilità del bersaglio.

La Composizione Adattiva delle Istruzioni Aumenta la Diversità dei Jailbreak degli LLM

Fatti principali

Entità

Istituzioni

Fonti