ARTFEED — Contemporary Art Intelligence

OrchJail: Framework di Fuzzing per il Jailbreak di Agenti T2I con Chiamate a Strumenti

other · 2026-05-11

Un nuovo framework di fuzzing chiamato OrchJail è stato creato da ricercatori per facilitare il jailbreak di agenti text-to-image (T2I) tramite guida all'orchestrazione. Sebbene questi agenti siano in grado di eseguire complesse catene di strumenti multi-step per generazione e modifica, questa funzionalità comporta un rischio per la sicurezza, poiché azioni innocue possono portare a risultati pericolosi se combinate. I metodi convenzionali che si basano esclusivamente su prompt sono inadeguati per contrastare queste vulnerabilità. OrchJail affronta schemi di orchestrazione ad alto rischio analizzando tracce di jailbreak riuscite e le loro connessioni con il linguaggio dei prompt. Guida il processo di fuzzing verso prompt più propensi a provocare comportamenti multi-step non sicuri, invece di dipendere da alterazioni testuali superficiali. Test approfonditi indicano che OrchJail migliora sia l'efficacia che l'efficienza dei jailbreak su vari agenti T2I. La ricerca è pubblicata su arXiv con l'identificatore 2605.07414.

Fatti principali

  • OrchJail è un framework di fuzzing guidato dall'orchestrazione per il jailbreak di agenti T2I con chiamate a strumenti.
  • Gli agenti T2I con chiamate a strumenti possono pianificare ed eseguire catene di strumenti multi-step.
  • Output dannosi possono derivare dall'orchestrazione di strumenti, dove passaggi benigni si combinano in risultati non sicuri.
  • Le tecniche di jailbreak basate solo su prompt sono insufficienti per questa nuova superficie d'attacco.
  • OrchJail sfrutta schemi di orchestrazione di strumenti ad alto rischio.
  • Impara da tracce di jailbreak riuscite con chiamate a strumenti e le loro relazioni causali con la formulazione dei prompt.
  • OrchJail guida la ricerca di fuzzing verso prompt che probabilmente innescano comportamenti multi-step non sicuri con gli strumenti.
  • Gli esperimenti mostrano una migliore efficacia ed efficienza del jailbreak su agenti T2I rappresentativi.

Entità

Istituzioni

  • arXiv

Fonti