Il benchmark AgentTrap espone le vulnerabilità di sicurezza nelle competenze di LLM di terze parti
AgentTrap è un benchmark innovativo volto a valutare la capacità degli agenti LLM di utilizzare competenze di terze parti evitando azioni runtime dannose. Queste competenze di terze parti, che includono istruzioni in linguaggio naturale, script di supporto, modelli, documenti e configurazioni di servizio, stanno sempre più formando l'ecosistema per gli agenti LLM. Tuttavia, rappresentano un rischio significativo per la sicurezza: una competenza malevola può mascherare azioni dannose all'interno di un flusso di lavoro standard, sfruttando i permessi di alto livello dell'agente e la minima supervisione umana. Composto da 141 compiti—91 dei quali malevoli e 50 benigni—AgentTrap affronta 16 dimensioni di impatto sulla sicurezza relative alle minacce alla catena di fornitura agente-competenza. Ogni compito presenta all'agente una richiesta tipica dell'utente, eseguendo competenze installate potenzialmente dannose, valutando così i fallimenti di fiducia in fase di esecuzione per misurare sistematicamente la sicurezza dell'agente in situazioni pratiche.
Fatti principali
- AgentTrap è un benchmark dinamico per la sicurezza degli agenti LLM.
- Le competenze di terze parti sono l'ecosistema di pacchetti per gli agenti LLM.
- Le competenze includono istruzioni, script, modelli e configurazioni.
- Competenze malevole possono mascherare comportamenti dannosi come flusso di lavoro di routine.
- AgentTrap contiene 141 compiti: 91 malevoli e 50 benigni.
- I compiti coprono 16 dimensioni di impatto sulla sicurezza.
- Le dimensioni sono basate sulle minacce alla catena di fornitura agente-competenza.
- Gli agenti operano con competenze installate e ricevono richieste utente ordinarie.
Entità
Istituzioni
- arXiv