Nuovo strumento di ricerca Evolve-CTF valuta la robustezza degli agenti AI nei compiti di cybersecurity
Un nuovo articolo di ricerca introduce le famiglie di sfide CTF come metodo per valutare i modelli linguistici di grandi dimensioni agentici nei compiti di cybersecurity. L'approccio utilizza trasformazioni di programma che preservano la semantica per creare versioni multiple di sfide capture-the-flag mantenendo identica la strategia di exploit sottostante. I ricercatori hanno sviluppato Evolve-CTF, uno strumento che genera queste famiglie di sfide a partire da problemi CTF basati su Python. Lo studio ha valutato 13 diverse configurazioni di LLM agentici con accesso a strumenti utilizzando famiglie derivate dalle sfide Cybench e Intercode. I risultati rivelano che i modelli dimostrano una robustezza significativa contro trasformazioni semplici come la ridenominazione e l'inserimento di codice. Tuttavia, le prestazioni si degradano sostanzialmente quando si affrontano trasformazioni composte e tecniche di offuscamento più profonde. La ricerca affronta le limitazioni dei benchmark puntuali esistenti che forniscono un'insufficiente comprensione della robustezza e delle capacità di generalizzazione degli agenti. Questo lavoro consente una valutazione controllata di come gli agenti AI gestiscono versioni alternative del codice sorgente mantenendo l'equivalenza semantica. L'articolo è disponibile su arXiv con l'identificatore 2602.05523v2 e tipo di annuncio replace-cross.
Fatti principali
- I ricercatori hanno introdotto famiglie di sfide CTF per valutare gli LLM agentici nella cybersecurity
- Le trasformazioni di programma che preservano la semantica creano versioni multiple di sfide con strategie di exploit identiche
- Lo strumento Evolve-CTF genera famiglie CTF da sfide Python utilizzando varie trasformazioni
- Lo studio ha valutato 13 configurazioni di LLM agentici con accesso a strumenti
- I modelli hanno mostrato robustezza alle trasformazioni di ridenominazione e inserimento di codice
- Le prestazioni si sono degradate con trasformazioni composte e offuscamento più profondo
- La ricerca ha utilizzato famiglie derivate dalle sfide Cybench e Intercode
- L'articolo è disponibile su arXiv come 2602.05523v2 con tipo di annuncio replace-cross
Entità
Istituzioni
- arXiv