AgentTrust: Livello di Sicurezza Runtime per l'Uso di Strumenti da Parte di Agenti AI
Un nuovo sistema di sicurezza runtime chiamato AgentTrust intercetta le chiamate agli strumenti degli agenti AI prima dell'esecuzione per prevenire azioni non sicure come la cancellazione di file, l'esposizione di credenziali o l'esfiltrazione di dati. Combina deoffuscamento delle shell, suggerimenti SafeFix, rilevamento RiskChain per attacchi multi-step e un LLM-as-Judge per input ambigui. Il sistema restituisce verdetti strutturati: allow, warn, block o review. Viene rilasciato un benchmark di 300 scenari in sei categorie di rischio. Le difese esistenti sono incomplete, basandosi su benchmark post-hoc, guardrail statici o sandbox infrastrutturali che mancano di comprensione semantica. AgentTrust colma queste lacune valutando le azioni in tempo reale.
Fatti principali
- AgentTrust intercetta le chiamate agli strumenti prima dell'esecuzione
- Restituisce verdetti: allow, warn, block o review
- Include un normalizzatore di deoffuscamento delle shell
- SafeFix suggerisce alternative più sicure
- RiskChain rileva catene di attacchi multi-step
- LLM-as-Judge con cache per input ambigui
- Benchmark di 300 scenari in sei categorie di rischio
- Colma le lacune nei benchmark post-hoc, guardrail statici e sandbox
Entità
Istituzioni
- arXiv