ATBench: Nuovo Benchmark per la Valutazione della Sicurezza degli Agenti LLM
Un nuovo benchmark chiamato ATBench è stato sviluppato da ricercatori per valutare la sicurezza degli agenti basati su LLM in modo strutturato, diversificato e realistico. Questo benchmark supera le carenze delle valutazioni attuali categorizzando il rischio agentico in tre aree: fonte del rischio, modalità di fallimento e potenziale danno nel mondo reale. Presenta 1.000 traiettorie, di cui 503 sicure e 497 non sicure, con una media di 9,01 turni e 3,95k token. Inoltre, utilizza 1.954 strumenti su un totale di 2.084 disponibili. ATBench incorpora un protocollo a contesto lungo con trigger ritardato per catturare efficacemente l'emergere di rischi realistici in varie fasi.
Fatti principali
- ATBench è un benchmark a livello di traiettoria per la valutazione della sicurezza degli agenti LLM.
- Organizza il rischio lungo tre dimensioni: fonte del rischio, modalità di fallimento e danno nel mondo reale.
- Il benchmark contiene 1.000 traiettorie (503 sicure, 497 non sicure).
- Le traiettorie hanno una media di 9,01 turni e 3,95k token.
- Ci sono 1.954 strumenti invocati da pool di 2.084 strumenti disponibili.
- Utilizza un protocollo a contesto lungo con trigger ritardato per l'emergere realistico del rischio.
- Il benchmark mira a migliorare diversità, osservabilità e realismo nella valutazione della sicurezza.
- Il lavoro è pubblicato su arXiv con ID 2604.02022.
Entità
Istituzioni
- arXiv