Nuovo benchmark rivela vulnerabilità di sicurezza negli agenti autonomi basati su LLM
I ricercatori hanno introdotto A3S-Bench, un benchmark composto da 2.254 casi di test reali per valutare le vulnerabilità di sicurezza in agenti autonomi basati su LLM come OpenClaw. Lo studio identifica tre nuovi vettori di evasione: evasione temporale, che frammenta i payload dannosi in più turni di interazione; evasione spaziale, che nasconde i payload all'interno di artefatti esterni complessi che bypassano l'analisi standard degli LLM; ed evasione semantica, che cela intenzioni malevole sotto rumore contestuale benigno. Le attuali analisi di vulnerabilità si concentrano su comportamenti a turno singolo e senza stato, trascurando i rischi derivanti da interazioni multi-turno con stato e invocazioni dinamiche di strumenti. Il framework mira a quantificare sistematicamente queste minacce mentre gli agenti autonomi acquisiscono privilegi di sistema profondi.
Fatti principali
- A3S-Bench include 2.254 casi di test reali
- Tre vettori di evasione: temporale, spaziale, semantico
- OpenClaw è un esempio di agente autonomo
- Le analisi attuali si concentrano su comportamenti a turno singolo e senza stato
- Gli agenti operano con privilegi di sistema profondi
- L'evasione temporale frammenta i payload attraverso i turni
- L'evasione spaziale utilizza artefatti esterni complessi
- L'evasione semantica utilizza rumore contestuale benigno
Entità
Istituzioni
- arXiv