Nuovo benchmark rivela vulnerabilità di sicurezza negli agenti autonomi basati su LLM

ai-technology · 2026-05-23

I ricercatori hanno introdotto A3S-Bench, un benchmark composto da 2.254 casi di test reali per valutare le vulnerabilità di sicurezza in agenti autonomi basati su LLM come OpenClaw. Lo studio identifica tre nuovi vettori di evasione: evasione temporale, che frammenta i payload dannosi in più turni di interazione; evasione spaziale, che nasconde i payload all'interno di artefatti esterni complessi che bypassano l'analisi standard degli LLM; ed evasione semantica, che cela intenzioni malevole sotto rumore contestuale benigno. Le attuali analisi di vulnerabilità si concentrano su comportamenti a turno singolo e senza stato, trascurando i rischi derivanti da interazioni multi-turno con stato e invocazioni dinamiche di strumenti. Il framework mira a quantificare sistematicamente queste minacce mentre gli agenti autonomi acquisiscono privilegi di sistema profondi.

Fatti principali

A3S-Bench include 2.254 casi di test reali
Tre vettori di evasione: temporale, spaziale, semantico
OpenClaw è un esempio di agente autonomo
Le analisi attuali si concentrano su comportamenti a turno singolo e senza stato
Gli agenti operano con privilegi di sistema profondi
L'evasione temporale frammenta i payload attraverso i turni
L'evasione spaziale utilizza artefatti esterni complessi
L'evasione semantica utilizza rumore contestuale benigno

Nuovo benchmark rivela vulnerabilità di sicurezza negli agenti autonomi basati su LLM

Fatti principali

Entità

Istituzioni

Fonti