ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark di Cyber Defense Valuta Agenti LLM per la Caccia alle Minacce nelle Operazioni di Sicurezza

ai-technology · 2026-04-22

Il Cyber Defense Benchmark è stato presentato dai ricercatori come un framework progettato per valutare le prestazioni degli agenti basati su grandi modelli linguistici nella caccia alle minacce all'interno dei centri operativi di sicurezza. Questo benchmark si concentra sul rilevamento di attività malevole in log di eventi Windows non elaborati, utilizzando 106 metodologie di attacco reali dalla collezione OTRF Security-Datasets, che copre 86 sotto-tecniche MITRE ATT&CK attraverso 12 tattiche. Gli agenti utilizzano un database SQLite contenente tra 75.000 e 135.000 voci di log da un simulatore di campagne, eseguendo query SQL per identificare i timestamp degli eventi malevoli, valutati in stile CTF rispetto a una verità di base basata su regole Sigma. Lo studio valuta cinque modelli, inclusi Claude Opus 4.6, GPT-5, Gemini 3.1 Pro e Kimi K2.5. I risultati sono disponibili su arXiv (identificatore 2604.19533v1).

Fatti principali

  • Il Cyber Defense Benchmark misura le prestazioni degli agenti LLM nelle attività di caccia alle minacce
  • Utilizza 106 procedure di attacco reali dal corpus OTRF Security-Datasets
  • Copre 86 sotto-tecniche MITRE ATT&CK attraverso 12 tattiche
  • Ogni episodio fornisce 75.000-135.000 record di log in database SQLite
  • Gli agenti devono inviare query SQL per trovare i timestamp degli eventi malevoli
  • Il punteggio è in stile CTF rispetto a una verità di base derivata da regole Sigma
  • Implementato come ambiente di apprendimento per rinforzo Gymnasium
  • Cinque modelli all'avanguardia valutati: Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5

Entità

Istituzioni

  • arXiv
  • OTRF Security-Datasets
  • MITRE ATT&CK
  • Gymnasium

Fonti