ARTFEED — Contemporary Art Intelligence

Studio rivela vulnerabilità negli agenti AI che utilizzano strumenti

ai-technology · 2026-06-01

Una recente indagine pubblicata su arXiv (2605.30686) approfondisce gli attacchi di iniezione indiretta di prompt mirati agli agenti ReAct, che integrano il ragionamento a catena di pensiero con l'uso di strumenti. Questi agenti, utilizzati per attività come pianificazione, recupero dati e accesso, mostrano vulnerabilità quando un attaccante manipola l'output di uno strumento per inserire comandi dannosi. Lo studio esamina tre fattori di rischio meno esplorati: la profondità di iniezione (la posizione del payload nella sequenza di strumenti), l'inquadramento del payload (lo stile retorico) e la sensibilità al budget di turni (il numero consentito di turni). Conducendo quattro esperimenti controllati su 20 scenari in cinque categorie di attacco, la ricerca ha coinvolto 460 prove contro GPT-4o-mini e Claude Haiku, con un costo totale inferiore a 0,36 USD. I risultati dello Studio 1 indicano che il tasso di successo dell'attacco (ASR) per GPT-4o-mini scende dal 60% a profondità di iniezione basse a livelli inferiori a profondità maggiori, sottolineando significative vulnerabilità di sicurezza nelle implementazioni esistenti degli agenti.

Fatti principali

  • Lo studio esamina l'iniezione indiretta di prompt negli agenti ReAct
  • Testati 20 scenari in cinque categorie di attacco
  • Condotte 460 prove contro GPT-4o-mini e Claude Haiku
  • Costo API combinato inferiore a 0,36 USD
  • Il tasso di successo dell'attacco diminuisce dal 60% con la profondità di iniezione
  • Esplorate tre dimensioni di rischio: profondità, inquadramento, budget di turni
  • Agenti utilizzati per pianificazione, recupero file, accesso ai dati
  • Pubblicato su arXiv con ID 2605.30686

Entità

Istituzioni

  • arXiv

Fonti