ARTFEED — Contemporary Art Intelligence

IPI-proxy: Toolkit Open-Source per il Red-Teaming di Agenti AI di Navigazione Web contro l'Iniezione Indiretta di Prompt

ai-technology · 2026-05-13

Un nuovo toolkit open-source chiamato IPI-proxy è stato introdotto dai ricercatori per migliorare la sicurezza degli agenti AI di navigazione web contro gli attacchi di iniezione indiretta di prompt (IPI). Questo strumento colma un vuoto cruciale nelle attuali misure di sicurezza: i benchmark esistenti forniscono pagine avversarie predefinite a cui gli agenti whitelistati non possono accedere, mentre gli scanner LLM generici si concentrano sull'API del modello anziché sul contenuto recuperato. IPI-proxy funge da proxy intercettatore che modifica in tempo reale le risposte HTTP effettive provenienti da domini approvati. Incorpora payload da una libreria consolidata di 820 stringhe di attacco uniche derivate da sei benchmark: BIPIA, InjecAgent, AgentDojo, Tensor Trust, WASP e LLMail-Inject. Inoltre, presenta un test harness basato su YAML per la parametrizzazione indipendente degli scenari di attacco. Questo progresso è fondamentale poiché gli agenti AI di navigazione web sono sempre più utilizzati nelle aziende con rigide whitelist di domini, ma gli aggressori possono comunque manipolarli attraverso istruzioni nascoste in pagine HTML provenienti da quei domini autorizzati. Il documento di ricerca è disponibile su arXiv con l'identificatore 2605.11868.

Fatti principali

  • IPI-proxy è un toolkit open-source per il red-teaming di agenti AI di navigazione web contro l'iniezione indiretta di prompt (IPI).
  • Opera come proxy intercettatore che riscrive in tempo reale le risposte HTTP effettive da domini whitelistati.
  • Il toolkit incorpora payload da una libreria unificata di 820 stringhe di attacco deduplicate.
  • Le stringhe di attacco sono estratte da sei benchmark pubblicati: BIPIA, InjecAgent, AgentDojo, Tensor Trust, WASP e LLMail-Inject.
  • Un test harness basato su YAML parametrizza indipendentemente gli scenari di attacco.
  • Le risorse di red-teaming esistenti sono insufficienti perché le pagine avversarie predefinite sono irraggiungibili dagli agenti whitelistati e gli scanner LLM generici sondano l'API del modello anziché il contenuto recuperato.
  • Gli agenti AI di navigazione web sono sempre più implementati in contesti aziendali con rigide whitelist di domini.
  • Gli avversari possono influenzare gli agenti incorporando istruzioni nascoste in pagine HTML provenienti da domini approvati.

Entità

Istituzioni

  • arXiv

Fonti