ARTFEED — Contemporary Art Intelligence

WARD: Una Nuova Difesa Contro gli Attacchi di Prompt Injection agli Agenti Web

ai-technology · 2026-05-16

I ricercatori hanno introdotto WARD (Web Agent Robust Defense against Prompt Injection), un modello protettivo volto a salvaguardare gli agenti web dalle minacce di prompt injection. Queste minacce sfruttano le debolezze degli ambienti web aperti inserendo comandi dannosi in HTML o interfacce visive. I modelli di guardia attuali affrontano sfide come una generalizzazione inadeguata a nuovi domini, tassi elevati di falsi positivi, problemi di latenza e vulnerabilità a tattiche avversarie in evoluzione. WARD utilizza due dataset: WARD-Base, che comprende circa 177.000 campioni da 719 URL e piattaforme popolari, e WARD-PIG, progettato per attacchi di prompt injection mirati al modello di guardia. Inoltre, presenta A3T, un metodo di addestramento avversario per aumentare la resilienza. Questa ricerca è disponibile su arXiv con ID 2605.15030.

Fatti principali

  • WARD sta per Web Agent Robust Defense against Prompt Injection.
  • Il modello affronta gli attacchi di prompt injection agli agenti web.
  • Il dataset WARD-Base include circa 177.000 campioni da 719 URL.
  • Il dataset WARD-PIG è mirato ad attacchi specifici al modello di guardia.
  • A3T è una tecnica di addestramento avversario introdotta nell'articolo.
  • I modelli di guardia esistenti hanno una generalizzazione limitata e alti tassi di falsi positivi.
  • La ricerca è disponibile su arXiv con ID 2605.15030.
  • L'articolo si concentra sulla sicurezza e l'efficienza degli agenti web.

Entità

Istituzioni

  • arXiv

Fonti