ARTFEED — Contemporary Art Intelligence

AgentTrust: Livello di Sicurezza Runtime per l'Uso di Strumenti da Parte di Agenti AI

ai-technology · 2026-05-07

Un nuovo sistema di sicurezza runtime chiamato AgentTrust intercetta le chiamate agli strumenti degli agenti AI prima dell'esecuzione per prevenire azioni non sicure come la cancellazione di file, l'esposizione di credenziali o l'esfiltrazione di dati. Combina deoffuscamento delle shell, suggerimenti SafeFix, rilevamento RiskChain per attacchi multi-step e un LLM-as-Judge per input ambigui. Il sistema restituisce verdetti strutturati: allow, warn, block o review. Viene rilasciato un benchmark di 300 scenari in sei categorie di rischio. Le difese esistenti sono incomplete, basandosi su benchmark post-hoc, guardrail statici o sandbox infrastrutturali che mancano di comprensione semantica. AgentTrust colma queste lacune valutando le azioni in tempo reale.

Fatti principali

  • AgentTrust intercetta le chiamate agli strumenti prima dell'esecuzione
  • Restituisce verdetti: allow, warn, block o review
  • Include un normalizzatore di deoffuscamento delle shell
  • SafeFix suggerisce alternative più sicure
  • RiskChain rileva catene di attacchi multi-step
  • LLM-as-Judge con cache per input ambigui
  • Benchmark di 300 scenari in sei categorie di rischio
  • Colma le lacune nei benchmark post-hoc, guardrail statici e sandbox

Entità

Istituzioni

  • arXiv

Fonti