Nuovo Benchmark di Cyber Defense Valuta Agenti LLM per la Caccia alle Minacce nelle Operazioni di Sicurezza

ai-technology · 2026-04-22

Il Cyber Defense Benchmark è stato presentato dai ricercatori come un framework progettato per valutare le prestazioni degli agenti basati su grandi modelli linguistici nella caccia alle minacce all'interno dei centri operativi di sicurezza. Questo benchmark si concentra sul rilevamento di attività malevole in log di eventi Windows non elaborati, utilizzando 106 metodologie di attacco reali dalla collezione OTRF Security-Datasets, che copre 86 sotto-tecniche MITRE ATT&CK attraverso 12 tattiche. Gli agenti utilizzano un database SQLite contenente tra 75.000 e 135.000 voci di log da un simulatore di campagne, eseguendo query SQL per identificare i timestamp degli eventi malevoli, valutati in stile CTF rispetto a una verità di base basata su regole Sigma. Lo studio valuta cinque modelli, inclusi Claude Opus 4.6, GPT-5, Gemini 3.1 Pro e Kimi K2.5. I risultati sono disponibili su arXiv (identificatore 2604.19533v1).

Fatti principali

Il Cyber Defense Benchmark misura le prestazioni degli agenti LLM nelle attività di caccia alle minacce
Utilizza 106 procedure di attacco reali dal corpus OTRF Security-Datasets
Copre 86 sotto-tecniche MITRE ATT&CK attraverso 12 tattiche
Ogni episodio fornisce 75.000-135.000 record di log in database SQLite
Gli agenti devono inviare query SQL per trovare i timestamp degli eventi malevoli
Il punteggio è in stile CTF rispetto a una verità di base derivata da regole Sigma
Implementato come ambiente di apprendimento per rinforzo Gymnasium
Cinque modelli all'avanguardia valutati: Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5

Nuovo Benchmark di Cyber Defense Valuta Agenti LLM per la Caccia alle Minacce nelle Operazioni di Sicurezza

Fatti principali

Entità

Istituzioni

Fonti