SafeAgent Architecture Propone Protezione Runtime per Agenti LLM Contro Attacchi di Prompt-Injection

ai-technology · 2026-04-22

Uno studio recente presenta SafeAgent, un framework di sicurezza mirato a proteggere gli agenti di grandi modelli linguistici dalle minacce di prompt-injection. Tali vulnerabilità possono propagarsi attraverso processi multi-step, interazioni con strumenti e contesto persistente, rendendo insufficiente il semplice filtraggio input-output. Questa architettura tratta la sicurezza degli agenti come una sfida decisionale stateful lungo percorsi di interazione in evoluzione. Distingue tra governance dell'esecuzione e valutazione del rischio semantico attraverso due componenti integrate: un controller runtime che gestisce le azioni all'interno del ciclo dell'agente e un nucleo decisionale context-aware che opera su uno stato di sessione persistente. Questo nucleo è definito come un'intelligenza artificiale avanzata context-aware e si realizza attraverso operatori per la codifica del rischio, la valutazione utilità-costo, la modellazione delle conseguenze, l'arbitraggio delle politiche e la sincronizzazione dello stato. Gli esperimenti di validazione hanno utilizzato i dataset Agent Security Bench e InjecAgent. Lo studio è catalogato come arXiv:2604.17562v1.

Fatti principali

Gli agenti di grandi modelli linguistici sono vulnerabili ad attacchi di prompt-injection
Gli attacchi si propagano attraverso workflow multi-step, interazioni con strumenti e contesto persistente
Il semplice filtraggio input-output è insufficiente per una protezione affidabile
SafeAgent tratta la sicurezza degli agenti come un problema decisionale stateful su traiettorie di interazione in evoluzione
L'architettura separa la governance dell'esecuzione dal ragionamento sul rischio semantico
Utilizza un controller runtime e un nucleo decisionale context-aware
Il nucleo decisionale è formalizzato come un'intelligenza artificiale avanzata context-aware
Gli esperimenti sono stati condotti su Agent Security Bench e InjecAgent

Entità

—

Fonti

arXiv cs.AI — 2026-04-21