ARTFEED — Contemporary Art Intelligence

Nuovo strumento di ricerca Evolve-CTF valuta la robustezza degli agenti AI nei compiti di cybersecurity

ai-technology · 2026-04-20

Un nuovo articolo di ricerca introduce le famiglie di sfide CTF come metodo per valutare i modelli linguistici di grandi dimensioni agentici nei compiti di cybersecurity. L'approccio utilizza trasformazioni di programma che preservano la semantica per creare versioni multiple di sfide capture-the-flag mantenendo identica la strategia di exploit sottostante. I ricercatori hanno sviluppato Evolve-CTF, uno strumento che genera queste famiglie di sfide a partire da problemi CTF basati su Python. Lo studio ha valutato 13 diverse configurazioni di LLM agentici con accesso a strumenti utilizzando famiglie derivate dalle sfide Cybench e Intercode. I risultati rivelano che i modelli dimostrano una robustezza significativa contro trasformazioni semplici come la ridenominazione e l'inserimento di codice. Tuttavia, le prestazioni si degradano sostanzialmente quando si affrontano trasformazioni composte e tecniche di offuscamento più profonde. La ricerca affronta le limitazioni dei benchmark puntuali esistenti che forniscono un'insufficiente comprensione della robustezza e delle capacità di generalizzazione degli agenti. Questo lavoro consente una valutazione controllata di come gli agenti AI gestiscono versioni alternative del codice sorgente mantenendo l'equivalenza semantica. L'articolo è disponibile su arXiv con l'identificatore 2602.05523v2 e tipo di annuncio replace-cross.

Fatti principali

  • I ricercatori hanno introdotto famiglie di sfide CTF per valutare gli LLM agentici nella cybersecurity
  • Le trasformazioni di programma che preservano la semantica creano versioni multiple di sfide con strategie di exploit identiche
  • Lo strumento Evolve-CTF genera famiglie CTF da sfide Python utilizzando varie trasformazioni
  • Lo studio ha valutato 13 configurazioni di LLM agentici con accesso a strumenti
  • I modelli hanno mostrato robustezza alle trasformazioni di ridenominazione e inserimento di codice
  • Le prestazioni si sono degradate con trasformazioni composte e offuscamento più profondo
  • La ricerca ha utilizzato famiglie derivate dalle sfide Cybench e Intercode
  • L'articolo è disponibile su arXiv come 2602.05523v2 con tipo di annuncio replace-cross

Entità

Istituzioni

  • arXiv

Fonti