ARTFEED — Contemporary Art Intelligence

DeepRed Valuta gli Agenti LLM nelle Sfide Capture The Flag di Cybersecurity

ai-technology · 2026-04-22

Un nuovo benchmark open-source chiamato DeepRed è stato sviluppato per valutare le capacità degli agenti Large Language Model in scenari realistici di cybersecurity. Questo framework di valutazione colloca gli agenti basati su LLM in ambienti virtualizzati isolati che eseguono strumenti di attacco Kali Linux, collegandoli a sfide target attraverso reti private. Per fornire una valutazione più sfumata rispetto alle semplici metriche risolto/non risolto, i ricercatori hanno introdotto un sistema di punteggio a credito parziale basato su checkpoint specifici per ciascuna sfia derivati da resoconti pubblici. Il benchmark include una pipeline automatizzata di etichettatura summarise-then-judge che analizza i log di esecuzione per determinare il completamento dei checkpoint. Dieci LLM commercialmente accessibili sono stati testati utilizzando DeepRed su dieci sfide Capture The Flag basate su VM che coprono molteplici categorie. La ricerca affronta il crescente interesse nelle applicazioni autonome di cybersecurity, riconoscendo che la comprensione attuale delle capacità degli agenti LLM in contesti offensivi rimane limitata. Tracciati completi di esecuzione vengono registrati durante i test per analisi dettagliate. Il benchmark consente capacità opzionali di ricerca web insieme agli strumenti terminale. Lo studio è stato annunciato come arXiv:2604.19354v1, rappresentando nuova ricerca nel campo dell'IA e della cybersecurity.

Fatti principali

  • DeepRed è un benchmark open-source per valutare agenti basati su LLM in cybersecurity
  • Il benchmark testa gli agenti in ambienti virtualizzati isolati con strumenti Kali Linux
  • Un metodo di punteggio a credito parziale utilizza checkpoint specifici per sfia derivati da resoconti pubblici
  • Dieci LLM commercialmente accessibili sono stati valutati su dieci sfide CTF basate su VM
  • Il sistema include una pipeline automatizzata di etichettatura summarise-then-judge per l'analisi dei log
  • Gli agenti possono utilizzare opzionalmente la ricerca web insieme agli strumenti terminale durante le sfide
  • Tracciati completi di esecuzione vengono registrati per analisi dettagliate delle prestazioni degli agenti
  • La ricerca affronta le capacità poco comprese degli agenti LLM in contesti offensivi di cybersecurity

Entità

Istituzioni

  • arXiv

Fonti