WARD: Una Nuova Difesa Contro gli Attacchi di Prompt Injection agli Agenti Web
I ricercatori hanno introdotto WARD (Web Agent Robust Defense against Prompt Injection), un modello protettivo volto a salvaguardare gli agenti web dalle minacce di prompt injection. Queste minacce sfruttano le debolezze degli ambienti web aperti inserendo comandi dannosi in HTML o interfacce visive. I modelli di guardia attuali affrontano sfide come una generalizzazione inadeguata a nuovi domini, tassi elevati di falsi positivi, problemi di latenza e vulnerabilità a tattiche avversarie in evoluzione. WARD utilizza due dataset: WARD-Base, che comprende circa 177.000 campioni da 719 URL e piattaforme popolari, e WARD-PIG, progettato per attacchi di prompt injection mirati al modello di guardia. Inoltre, presenta A3T, un metodo di addestramento avversario per aumentare la resilienza. Questa ricerca è disponibile su arXiv con ID 2605.15030.
Fatti principali
- WARD sta per Web Agent Robust Defense against Prompt Injection.
- Il modello affronta gli attacchi di prompt injection agli agenti web.
- Il dataset WARD-Base include circa 177.000 campioni da 719 URL.
- Il dataset WARD-PIG è mirato ad attacchi specifici al modello di guardia.
- A3T è una tecnica di addestramento avversario introdotta nell'articolo.
- I modelli di guardia esistenti hanno una generalizzazione limitata e alti tassi di falsi positivi.
- La ricerca è disponibile su arXiv con ID 2605.15030.
- L'articolo si concentra sulla sicurezza e l'efficienza degli agenti web.
Entità
Istituzioni
- arXiv