WARD: Una Nuova Difesa Contro gli Attacchi di Prompt Injection agli Agenti Web

ai-technology · 2026-05-16

I ricercatori hanno introdotto WARD (Web Agent Robust Defense against Prompt Injection), un modello protettivo volto a salvaguardare gli agenti web dalle minacce di prompt injection. Queste minacce sfruttano le debolezze degli ambienti web aperti inserendo comandi dannosi in HTML o interfacce visive. I modelli di guardia attuali affrontano sfide come una generalizzazione inadeguata a nuovi domini, tassi elevati di falsi positivi, problemi di latenza e vulnerabilità a tattiche avversarie in evoluzione. WARD utilizza due dataset: WARD-Base, che comprende circa 177.000 campioni da 719 URL e piattaforme popolari, e WARD-PIG, progettato per attacchi di prompt injection mirati al modello di guardia. Inoltre, presenta A3T, un metodo di addestramento avversario per aumentare la resilienza. Questa ricerca è disponibile su arXiv con ID 2605.15030.

Fatti principali

WARD sta per Web Agent Robust Defense against Prompt Injection.
Il modello affronta gli attacchi di prompt injection agli agenti web.
Il dataset WARD-Base include circa 177.000 campioni da 719 URL.
Il dataset WARD-PIG è mirato ad attacchi specifici al modello di guardia.
A3T è una tecnica di addestramento avversario introdotta nell'articolo.
I modelli di guardia esistenti hanno una generalizzazione limitata e alti tassi di falsi positivi.
La ricerca è disponibile su arXiv con ID 2605.15030.
L'articolo si concentra sulla sicurezza e l'efficienza degli agenti web.

WARD: Una Nuova Difesa Contro gli Attacchi di Prompt Injection agli Agenti Web

Fatti principali

Entità

Istituzioni

Fonti