Attacco Dormiente: Minacce Avversarie Persistenti agli Agenti LLM
Uno studio recente pubblicato su arXiv (2605.28201) presenta il concetto di 'Attacco Dormiente', una preoccupazione per la sicurezza in cui contenuti dannosi persistono attraverso varie interazioni con agenti di modelli linguistici di grandi dimensioni (LLM). A differenza degli attacchi che manifestano comportamenti dannosi in una singola interazione, questo contenuto avversario può rimanere inattivo nello stato dell'agente e essere attivato da un prompt utente innocuo in un momento successivo. I ricercatori hanno sviluppato un benchmark composto da 1.896 esempi che illustrano sei conseguenze dannose reali per valutare questo rischio. Questa ricerca sottolinea una nuova vulnerabilità negli agenti LLM, complicando gli sforzi di rilevamento e mitigazione.
Fatti principali
- L'Attacco Dormiente è una minaccia avversaria persistente per gli agenti LLM.
- Il contenuto avversario può persistere attraverso interazioni servite dallo stesso agente.
- Il contenuto rimane dormiente e viene attivato da una query utente benigna.
- Il benchmark include 1.896 istanze che coprono sei esiti dannosi.
- Studio pubblicato su arXiv con identificatore 2605.28201.
- La minaccia è più difficile da rilevare rispetto agli attacchi a singola interazione.
- L'attacco prende di mira osservazioni esterne come dati restituiti da strumenti o pagine web.
- Il contenuto avversario può essere iniettato nel contesto MCP.
Entità
Istituzioni
- arXiv