ExCyTIn-Bench: Primo Benchmark per Agenti LLM nell'Indagine sulle Minacce Informatiche

other · 2026-05-04

Un team di ricercatori ha presentato ExCyTIn-Bench, il primo benchmark volto a valutare gli agenti LLM nel campo delle indagini sulle minacce informatiche. Questo benchmark utilizza richieste di sicurezza provenienti da grafi di indagine costruiti in un ambiente Azure tenant controllato. Presenta una configurazione SQL composta da 57 tabelle di log di Microsoft Sentinel e servizi associati, insieme a 7542 domande generate. Queste domande sono formulate impiegando logiche di rilevamento create da esperti per generare grafi di indagine sulle minacce, utilizzando successivamente LLM per derivare domande da nodi accoppiati, dove il nodo iniziale funge da contesto e il nodo finale fornisce la risposta. Questa iniziativa affronta la sfida di automatizzare le indagini sulle minacce, consentendo agli analisti di navigare tra diversi log di sicurezza e tracciare catene di prove multi-hop. Il benchmark mira a migliorare lo sviluppo di agenti basati su LLM per indagini automatizzate sulle minacce.

Fatti principali

ExCyTIn-Bench è il primo benchmark per valutare gli agenti LLM nell'indagine sulle minacce informatiche.
Il benchmark utilizza domande di sicurezza derivate da grafi di indagine.
È costruito a partire da un ambiente Azure tenant controllato.
L'ambiente SQL copre 57 tabelle di log di Microsoft Sentinel e servizi correlati.
Il benchmark include 7542 domande generate.
Le domande sono generate utilizzando logiche di rilevamento create da esperti e nodi accoppiati sui grafi di indagine.
Il nodo iniziale funge da contesto di base e il nodo finale come risposta.
Il lavoro mira ad automatizzare l'indagine sulle minacce utilizzando agenti LLM.

ExCyTIn-Bench: Primo Benchmark per Agenti LLM nell'Indagine sulle Minacce Informatiche

Fatti principali

Entità

Istituzioni

Fonti