Nuovo strumento di ricerca Evolve-CTF valuta la robustezza degli agenti AI nei compiti di cybersecurity

ai-technology · 2026-04-20

Un nuovo articolo di ricerca introduce le famiglie di sfide CTF come metodo per valutare i modelli linguistici di grandi dimensioni agentici nei compiti di cybersecurity. L'approccio utilizza trasformazioni di programma che preservano la semantica per creare versioni multiple di sfide capture-the-flag mantenendo identica la strategia di exploit sottostante. I ricercatori hanno sviluppato Evolve-CTF, uno strumento che genera queste famiglie di sfide a partire da problemi CTF basati su Python. Lo studio ha valutato 13 diverse configurazioni di LLM agentici con accesso a strumenti utilizzando famiglie derivate dalle sfide Cybench e Intercode. I risultati rivelano che i modelli dimostrano una robustezza significativa contro trasformazioni semplici come la ridenominazione e l'inserimento di codice. Tuttavia, le prestazioni si degradano sostanzialmente quando si affrontano trasformazioni composte e tecniche di offuscamento più profonde. La ricerca affronta le limitazioni dei benchmark puntuali esistenti che forniscono un'insufficiente comprensione della robustezza e delle capacità di generalizzazione degli agenti. Questo lavoro consente una valutazione controllata di come gli agenti AI gestiscono versioni alternative del codice sorgente mantenendo l'equivalenza semantica. L'articolo è disponibile su arXiv con l'identificatore 2602.05523v2 e tipo di annuncio replace-cross.

Fatti principali

I ricercatori hanno introdotto famiglie di sfide CTF per valutare gli LLM agentici nella cybersecurity
Le trasformazioni di programma che preservano la semantica creano versioni multiple di sfide con strategie di exploit identiche
Lo strumento Evolve-CTF genera famiglie CTF da sfide Python utilizzando varie trasformazioni
Lo studio ha valutato 13 configurazioni di LLM agentici con accesso a strumenti
I modelli hanno mostrato robustezza alle trasformazioni di ridenominazione e inserimento di codice
Le prestazioni si sono degradate con trasformazioni composte e offuscamento più profondo
La ricerca ha utilizzato famiglie derivate dalle sfide Cybench e Intercode
L'articolo è disponibile su arXiv come 2602.05523v2 con tipo di annuncio replace-cross

Nuovo strumento di ricerca Evolve-CTF valuta la robustezza degli agenti AI nei compiti di cybersecurity

Fatti principali

Entità

Istituzioni

Fonti