ATBench: Nuovo Benchmark per la Valutazione della Sicurezza degli Agenti LLM

ai-technology · 2026-05-14

Un nuovo benchmark chiamato ATBench è stato sviluppato da ricercatori per valutare la sicurezza degli agenti basati su LLM in modo strutturato, diversificato e realistico. Questo benchmark supera le carenze delle valutazioni attuali categorizzando il rischio agentico in tre aree: fonte del rischio, modalità di fallimento e potenziale danno nel mondo reale. Presenta 1.000 traiettorie, di cui 503 sicure e 497 non sicure, con una media di 9,01 turni e 3,95k token. Inoltre, utilizza 1.954 strumenti su un totale di 2.084 disponibili. ATBench incorpora un protocollo a contesto lungo con trigger ritardato per catturare efficacemente l'emergere di rischi realistici in varie fasi.

Fatti principali

ATBench è un benchmark a livello di traiettoria per la valutazione della sicurezza degli agenti LLM.
Organizza il rischio lungo tre dimensioni: fonte del rischio, modalità di fallimento e danno nel mondo reale.
Il benchmark contiene 1.000 traiettorie (503 sicure, 497 non sicure).
Le traiettorie hanno una media di 9,01 turni e 3,95k token.
Ci sono 1.954 strumenti invocati da pool di 2.084 strumenti disponibili.
Utilizza un protocollo a contesto lungo con trigger ritardato per l'emergere realistico del rischio.
Il benchmark mira a migliorare diversità, osservabilità e realismo nella valutazione della sicurezza.
Il lavoro è pubblicato su arXiv con ID 2604.02022.

ATBench: Nuovo Benchmark per la Valutazione della Sicurezza degli Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti