Studio rivela vulnerabilità negli agenti AI che utilizzano strumenti
Una recente indagine pubblicata su arXiv (2605.30686) approfondisce gli attacchi di iniezione indiretta di prompt mirati agli agenti ReAct, che integrano il ragionamento a catena di pensiero con l'uso di strumenti. Questi agenti, utilizzati per attività come pianificazione, recupero dati e accesso, mostrano vulnerabilità quando un attaccante manipola l'output di uno strumento per inserire comandi dannosi. Lo studio esamina tre fattori di rischio meno esplorati: la profondità di iniezione (la posizione del payload nella sequenza di strumenti), l'inquadramento del payload (lo stile retorico) e la sensibilità al budget di turni (il numero consentito di turni). Conducendo quattro esperimenti controllati su 20 scenari in cinque categorie di attacco, la ricerca ha coinvolto 460 prove contro GPT-4o-mini e Claude Haiku, con un costo totale inferiore a 0,36 USD. I risultati dello Studio 1 indicano che il tasso di successo dell'attacco (ASR) per GPT-4o-mini scende dal 60% a profondità di iniezione basse a livelli inferiori a profondità maggiori, sottolineando significative vulnerabilità di sicurezza nelle implementazioni esistenti degli agenti.
Fatti principali
- Lo studio esamina l'iniezione indiretta di prompt negli agenti ReAct
- Testati 20 scenari in cinque categorie di attacco
- Condotte 460 prove contro GPT-4o-mini e Claude Haiku
- Costo API combinato inferiore a 0,36 USD
- Il tasso di successo dell'attacco diminuisce dal 60% con la profondità di iniezione
- Esplorate tre dimensioni di rischio: profondità, inquadramento, budget di turni
- Agenti utilizzati per pianificazione, recupero file, accesso ai dati
- Pubblicato su arXiv con ID 2605.30686
Entità
Istituzioni
- arXiv