ARTFEED — Contemporary Art Intelligence

La Composizione Adattiva delle Istruzioni Aumenta la Diversità dei Jailbreak degli LLM

ai-technology · 2026-04-25

Un nuovo framework chiamato Adaptive Instruction Composition (AIC) migliora il red-teaming automatico dei grandi modelli linguistici combinando query dannose e tattiche crowdsourced in modo adattivo anziché casuale. L'approccio utilizza l'apprendimento per rinforzo per bilanciare esplorazione e sfruttamento in uno spazio combinatorio di istruzioni, guidando un LLM attaccante a generare jailbreak diversificati su misura per le vulnerabilità del bersaglio. Gli esperimenti mostrano che AIC supera sostanzialmente le combinazioni casuali in termini di efficacia e diversità. Il lavoro è stato pubblicato su arXiv (2604.21159) e rappresenta un passo verso una valutazione della sicurezza degli LLM più robusta.

Fatti principali

  • Adaptive Instruction Composition (AIC) è un nuovo framework per il red-teaming degli LLM.
  • Combina testi crowdsourced in modo adattivo usando l'apprendimento per rinforzo.
  • Il metodo ottimizza congiuntamente efficacia e diversità dei jailbreak.
  • Supera le combinazioni casuali in efficacia e diversità.
  • L'articolo è su arXiv con ID 2604.21159.
  • L'approccio affronta i limiti dei metodi precedenti basati su tentativi ed errori e combinazioni casuali.
  • L'apprendimento per rinforzo bilancia esplorazione e sfruttamento nello spazio delle istruzioni.
  • L'LLM attaccante è guidato verso generazioni diversificate su misura per le vulnerabilità del bersaglio.

Entità

Istituzioni

  • arXiv

Fonti