MIRAGE: Attacco di Iniezione di Prompt su Agenti GUI Mobili tramite Contenuti Utente
Un team di ricercatori ha introdotto MIRAGE (Mobile Injection of Realistic Adversarial GUI Examples), un sistema che prende di mira agenti GUI mobili basati su modelli visione-linguaggio (VLM) incorporando testo avversario nelle aree di contenuto generato dall'utente degli screenshot. Questo metodo non altera l'agente, l'applicazione o il sistema operativo. MIRAGE funziona attraverso tre fasi: un Localizzatore individua le aree controllabili dall'utente, un Generatore crea payload contestualmente rilevanti nel design nativo dell'app, e un Curatore garantisce il realismo bilanciando i campioni tra varie applicazioni, tipi di regione e obiettivi di attacco. Una sfida significativa è rendere gli screenshot iniettati visivamente indistinguibili da quelli legittimi. Questa ricerca rivela una grave vulnerabilità negli agenti basati su VLM, che faticano a distinguere tra elementi dell'interfaccia affidabili e contenuti generati dall'utente. Il documento è disponibile su arXiv con ID 2605.28116.
Fatti principali
- MIRAGE sta per Mobile Injection of Realistic Adversarial GUI Examples.
- L'attacco prende di mira agenti GUI mobili basati su VLM.
- Inserisce testo controllato dall'attaccante nelle regioni di contenuto generato dall'utente.
- Il pipeline ha tre fasi: Localizzatore, Generatore, Curatore.
- Non è richiesta alcuna modifica all'agente, all'applicazione o al sistema operativo.
- Gli screenshot iniettati devono rimanere visivamente indistinguibili da quelli benigni.
- Il documento è su arXiv con ID 2605.28116.
- L'attacco sfrutta l'incapacità dei VLM di separare l'interfaccia utente affidabile dal contenuto utente.
Entità
Istituzioni
- arXiv