OrchJail: Framework di Fuzzing per il Jailbreak di Agenti T2I con Chiamate a Strumenti
Un nuovo framework di fuzzing chiamato OrchJail è stato creato da ricercatori per facilitare il jailbreak di agenti text-to-image (T2I) tramite guida all'orchestrazione. Sebbene questi agenti siano in grado di eseguire complesse catene di strumenti multi-step per generazione e modifica, questa funzionalità comporta un rischio per la sicurezza, poiché azioni innocue possono portare a risultati pericolosi se combinate. I metodi convenzionali che si basano esclusivamente su prompt sono inadeguati per contrastare queste vulnerabilità. OrchJail affronta schemi di orchestrazione ad alto rischio analizzando tracce di jailbreak riuscite e le loro connessioni con il linguaggio dei prompt. Guida il processo di fuzzing verso prompt più propensi a provocare comportamenti multi-step non sicuri, invece di dipendere da alterazioni testuali superficiali. Test approfonditi indicano che OrchJail migliora sia l'efficacia che l'efficienza dei jailbreak su vari agenti T2I. La ricerca è pubblicata su arXiv con l'identificatore 2605.07414.
Fatti principali
- OrchJail è un framework di fuzzing guidato dall'orchestrazione per il jailbreak di agenti T2I con chiamate a strumenti.
- Gli agenti T2I con chiamate a strumenti possono pianificare ed eseguire catene di strumenti multi-step.
- Output dannosi possono derivare dall'orchestrazione di strumenti, dove passaggi benigni si combinano in risultati non sicuri.
- Le tecniche di jailbreak basate solo su prompt sono insufficienti per questa nuova superficie d'attacco.
- OrchJail sfrutta schemi di orchestrazione di strumenti ad alto rischio.
- Impara da tracce di jailbreak riuscite con chiamate a strumenti e le loro relazioni causali con la formulazione dei prompt.
- OrchJail guida la ricerca di fuzzing verso prompt che probabilmente innescano comportamenti multi-step non sicuri con gli strumenti.
- Gli esperimenti mostrano una migliore efficacia ed efficienza del jailbreak su agenti T2I rappresentativi.
Entità
Istituzioni
- arXiv