ARTFEED — Contemporary Art Intelligence

Nuovo benchmark rivela vulnerabilità di sicurezza negli agenti autonomi basati su LLM

ai-technology · 2026-05-23

I ricercatori hanno introdotto A3S-Bench, un benchmark composto da 2.254 casi di test reali per valutare le vulnerabilità di sicurezza in agenti autonomi basati su LLM come OpenClaw. Lo studio identifica tre nuovi vettori di evasione: evasione temporale, che frammenta i payload dannosi in più turni di interazione; evasione spaziale, che nasconde i payload all'interno di artefatti esterni complessi che bypassano l'analisi standard degli LLM; ed evasione semantica, che cela intenzioni malevole sotto rumore contestuale benigno. Le attuali analisi di vulnerabilità si concentrano su comportamenti a turno singolo e senza stato, trascurando i rischi derivanti da interazioni multi-turno con stato e invocazioni dinamiche di strumenti. Il framework mira a quantificare sistematicamente queste minacce mentre gli agenti autonomi acquisiscono privilegi di sistema profondi.

Fatti principali

  • A3S-Bench include 2.254 casi di test reali
  • Tre vettori di evasione: temporale, spaziale, semantico
  • OpenClaw è un esempio di agente autonomo
  • Le analisi attuali si concentrano su comportamenti a turno singolo e senza stato
  • Gli agenti operano con privilegi di sistema profondi
  • L'evasione temporale frammenta i payload attraverso i turni
  • L'evasione spaziale utilizza artefatti esterni complessi
  • L'evasione semantica utilizza rumore contestuale benigno

Entità

Istituzioni

  • arXiv

Fonti