Vulnerabilità di sicurezza degli agenti AI rivelate in una nuova ricerca sugli attacchi backdoor
Uno studio recente ha scoperto significative vulnerabilità di sicurezza all'interno della catena di approvvigionamento degli agenti AI, rivelando come gli aggressori possano introdurre backdoor sottili tramite avvelenamento dei dati. La ricerca delinea tre plausibili modelli di minaccia a vari livelli della catena di approvvigionamento: avvelenamento diretto dei dataset di fine-tuning, modelli fondazionali pre-backdoorati e avvelenamento dell'ambiente - un metodo di attacco innovativo che sfrutta le vulnerabilità nella pipeline di addestramento agentico. Testati su due importanti benchmark agentici, tutti i modelli hanno avuto successo, con solo poche dimostrazioni avvelenate sufficienti a creare backdoor che inducono gli agenti a divulgare informazioni sensibili degli utenti con oltre l'80% di efficacia. Sebbene il potenziamento degli agenti AI tramite dati di interazione come la navigazione web o l'uso di strumenti ne migliori le prestazioni, solleva simultaneamente preoccupazioni di sicurezza. I risultati indicano che gli avversari possono contaminare i processi di raccolta dati in diverse fasi, inducendo azioni non sicure o dannose. Questo articolo è disponibile su arXiv con l'identificatore 2510.05159.
Fatti principali
- La ricerca identifica vulnerabilità di sicurezza nella catena di approvvigionamento degli agenti AI
- Tre modelli di minaccia formalizzati: avvelenamento dei dati, modelli pre-backdoorati, avvelenamento dell'ambiente
- L'avvelenamento dell'ambiente è un nuovo vettore di attacco che sfrutta le pipeline di addestramento agentico
- Tutti i modelli di minaccia si sono dimostrati efficaci su due benchmark agentici ampiamente adottati
- L'avvelenamento di un piccolo numero di dimostrazioni può incorporare backdoor con oltre l'80% di successo
- Le backdoor possono causare la fuoriuscita di informazioni confidenziali degli utenti da parte degli agenti
- Il fine-tuning degli agenti AI sui dati di interazione introduce rischi di sicurezza
- Articolo pubblicato su arXiv con identificatore 2510.05159
Entità
Istituzioni
- arXiv