Attacco OEP avvelena agenti LLM auto-evolventi tramite esperienze pulite
I ricercatori hanno identificato una nuova vulnerabilità di sicurezza negli agenti LLM con memoria aumentata che utilizzano riflessione iterativa e auto-evoluzione. L'attacco, chiamato Obsessive Experience Poisoning (OEP), sfrutta la capacità dell'agente di generare e apprendere dalle proprie esperienze. A differenza degli attacchi precedenti che richiedono accesso privilegiato o contenuti esplicitamente dannosi, OEP è un attacco black-box a bassi privilegi che costruisce casi limite avversari puliti. Questi casi limite combinano soluzioni localmente corrette con conseguenze ipotetiche gravi ma plausibili, portando l'agente a generalizzare in modo dannoso durante la riflessione. L'attacco non richiede il controllo diretto del prompt di sistema o del database di memoria, rendendolo furtivo e difficile da rilevare. I risultati sono stati pubblicati su arXiv con l'identificatore 2605.18930.
Fatti principali
- OEP è un attacco black-box a bassi privilegi su agenti LLM auto-evolventi.
- L'attacco utilizza esperienze pulite che sono localmente corrette ma inducono una generalizzazione dannosa.
- Non richiede controllo diretto del prompt di sistema o del database di memoria.
- L'attacco sfrutta i meccanismi di riflessione iterativa e auto-evoluzione.
- Gli attacchi precedenti richiedevano accesso privilegiato o contenuti esplicitamente dannosi.
- L'articolo è disponibile su arXiv con l'identificatore 2605.18930.
- L'attacco combina soluzioni localmente corrette con conseguenze ipotetiche.
- Prende di mira agenti LLM con memoria aumentata.
Entità
Istituzioni
- arXiv