Rilevamento Leggero di Iniezione di Prompt per Agenti Web Basati su Screenshot

digital · 2026-04-30

Un nuovo metodo, SnapGuard, rileva attacchi di iniezione di prompt in agenti web basati su screenshot senza fare affidamento su grandi modelli visione-linguaggio. L'approccio affronta le vulnerabilità in cui istruzioni maligne incorporate nelle immagini delle pagine web causano azioni indesiderate dell'agente. Evitando pesanti VLM, SnapGuard riduce il carico computazionale mantenendo l'efficacia del rilevamento.

Fatti principali

SnapGuard prende di mira gli attacchi di iniezione di prompt su agenti web basati su screenshot.
Le difese testuali esistenti sono inefficaci contro gli attacchi visivi.
Il rilevamento multimodale che utilizza grandi VLM comporta costi computazionali elevati.
SnapGuard offre un'alternativa leggera ai metodi basati su VLM.
Il metodo è descritto nel preprint arXiv 2604.25562.
Gli attacchi di iniezione di prompt incorporano istruzioni maligne nel contenuto delle pagine web.
Gli agenti basati su screenshot operano su pagine web visualizzate.

Rilevamento Leggero di Iniezione di Prompt per Agenti Web Basati su Screenshot

Fatti principali

Entità

Istituzioni

Fonti