ARTFEED — Contemporary Art Intelligence

SIR-Bench: Nuovo Benchmark Valuta gli Agenti di Risposta agli Incidenti di Sicurezza IA

ai-technology · 2026-04-15

SIR-Bench ha introdotto un benchmark completo che comprende 794 casi di test progettati per valutare le prestazioni degli agenti autonomi di risposta agli incidenti di sicurezza. Questo strumento distingue le indagini forensi reali dai semplici allarmi ripetitivi. Si basa su 129 pattern di incidenti anonimizzati, confermati da esperti, e valuta non solo l'accuratezza delle scelte di triage degli agenti, ma anche la loro capacità di scoprire nuove prove attraverso indagini attive. I ricercatori hanno sviluppato Once Upon A Threat (OUAT) per creare SIR-Bench, che simula pattern di incidenti reali in ambienti cloud gestiti, producendo telemetria autentica con risultati di indagine misurabili. La valutazione utilizza tre metriche collegate: accuratezza del triage (M1), scoperta di nuovi risultati (M2) e uso appropriato degli strumenti (M3), con un LLM avversariale come Giudice che garantisce standard di prova rigorosi per la convalida delle indagini.

Fatti principali

  • SIR-Bench è un benchmark di 794 casi di test per valutare gli agenti autonomi di risposta agli incidenti di sicurezza
  • Distingue le indagini forensi genuine dalla semplice ripetizione di allarmi
  • Derivato da 129 pattern di incidenti anonimizzati con verità di base convalidata da esperti
  • Misura se gli agenti raggiungono decisioni di triage corrette e scoprono nuove prove attraverso indagini attive
  • Utilizza il framework Once Upon A Threat (OUAT) per riprodurre pattern di incidenti reali in ambienti cloud controllati
  • Produce telemetria autentica con risultati di indagine misurabili
  • Introduce tre metriche: accuratezza del triage (M1), scoperta di nuovi risultati (M2) e appropriatezza dell'uso degli strumenti (M3)
  • Utilizza un LLM avversariale come Giudice che richiede prove forensi concrete per accreditare le indagini

Entità

Istituzioni

  • arXiv

Fonti