Studio rivela vulnerabilità negli agenti AI che utilizzano strumenti

ai-technology · 2026-06-01

Una recente indagine pubblicata su arXiv (2605.30686) approfondisce gli attacchi di iniezione indiretta di prompt mirati agli agenti ReAct, che integrano il ragionamento a catena di pensiero con l'uso di strumenti. Questi agenti, utilizzati per attività come pianificazione, recupero dati e accesso, mostrano vulnerabilità quando un attaccante manipola l'output di uno strumento per inserire comandi dannosi. Lo studio esamina tre fattori di rischio meno esplorati: la profondità di iniezione (la posizione del payload nella sequenza di strumenti), l'inquadramento del payload (lo stile retorico) e la sensibilità al budget di turni (il numero consentito di turni). Conducendo quattro esperimenti controllati su 20 scenari in cinque categorie di attacco, la ricerca ha coinvolto 460 prove contro GPT-4o-mini e Claude Haiku, con un costo totale inferiore a 0,36 USD. I risultati dello Studio 1 indicano che il tasso di successo dell'attacco (ASR) per GPT-4o-mini scende dal 60% a profondità di iniezione basse a livelli inferiori a profondità maggiori, sottolineando significative vulnerabilità di sicurezza nelle implementazioni esistenti degli agenti.

Fatti principali

Lo studio esamina l'iniezione indiretta di prompt negli agenti ReAct
Testati 20 scenari in cinque categorie di attacco
Condotte 460 prove contro GPT-4o-mini e Claude Haiku
Costo API combinato inferiore a 0,36 USD
Il tasso di successo dell'attacco diminuisce dal 60% con la profondità di iniezione
Esplorate tre dimensioni di rischio: profondità, inquadramento, budget di turni
Agenti utilizzati per pianificazione, recupero file, accesso ai dati
Pubblicato su arXiv con ID 2605.30686

Studio rivela vulnerabilità negli agenti AI che utilizzano strumenti

Fatti principali

Entità

Istituzioni

Fonti