Attacco OEP avvelena agenti LLM auto-evolventi tramite esperienze pulite

ai-technology · 2026-05-20

I ricercatori hanno identificato una nuova vulnerabilità di sicurezza negli agenti LLM con memoria aumentata che utilizzano riflessione iterativa e auto-evoluzione. L'attacco, chiamato Obsessive Experience Poisoning (OEP), sfrutta la capacità dell'agente di generare e apprendere dalle proprie esperienze. A differenza degli attacchi precedenti che richiedono accesso privilegiato o contenuti esplicitamente dannosi, OEP è un attacco black-box a bassi privilegi che costruisce casi limite avversari puliti. Questi casi limite combinano soluzioni localmente corrette con conseguenze ipotetiche gravi ma plausibili, portando l'agente a generalizzare in modo dannoso durante la riflessione. L'attacco non richiede il controllo diretto del prompt di sistema o del database di memoria, rendendolo furtivo e difficile da rilevare. I risultati sono stati pubblicati su arXiv con l'identificatore 2605.18930.

Fatti principali

OEP è un attacco black-box a bassi privilegi su agenti LLM auto-evolventi.
L'attacco utilizza esperienze pulite che sono localmente corrette ma inducono una generalizzazione dannosa.
Non richiede controllo diretto del prompt di sistema o del database di memoria.
L'attacco sfrutta i meccanismi di riflessione iterativa e auto-evoluzione.
Gli attacchi precedenti richiedevano accesso privilegiato o contenuti esplicitamente dannosi.
L'articolo è disponibile su arXiv con l'identificatore 2605.18930.
L'attacco combina soluzioni localmente corrette con conseguenze ipotetiche.
Prende di mira agenti LLM con memoria aumentata.

Attacco OEP avvelena agenti LLM auto-evolventi tramite esperienze pulite

Fatti principali

Entità

Istituzioni

Fonti