La Composizione Adattiva delle Istruzioni Aumenta la Diversità dei Jailbreak degli LLM
Un nuovo framework chiamato Adaptive Instruction Composition (AIC) migliora il red-teaming automatico dei grandi modelli linguistici combinando query dannose e tattiche crowdsourced in modo adattivo anziché casuale. L'approccio utilizza l'apprendimento per rinforzo per bilanciare esplorazione e sfruttamento in uno spazio combinatorio di istruzioni, guidando un LLM attaccante a generare jailbreak diversificati su misura per le vulnerabilità del bersaglio. Gli esperimenti mostrano che AIC supera sostanzialmente le combinazioni casuali in termini di efficacia e diversità. Il lavoro è stato pubblicato su arXiv (2604.21159) e rappresenta un passo verso una valutazione della sicurezza degli LLM più robusta.
Fatti principali
- Adaptive Instruction Composition (AIC) è un nuovo framework per il red-teaming degli LLM.
- Combina testi crowdsourced in modo adattivo usando l'apprendimento per rinforzo.
- Il metodo ottimizza congiuntamente efficacia e diversità dei jailbreak.
- Supera le combinazioni casuali in efficacia e diversità.
- L'articolo è su arXiv con ID 2604.21159.
- L'approccio affronta i limiti dei metodi precedenti basati su tentativi ed errori e combinazioni casuali.
- L'apprendimento per rinforzo bilancia esplorazione e sfruttamento nello spazio delle istruzioni.
- L'LLM attaccante è guidato verso generazioni diversificate su misura per le vulnerabilità del bersaglio.
Entità
Istituzioni
- arXiv