Agenti LLM per CTF: Prestazioni Rivisitate

ai-technology · 2026-05-23

Un nuovo studio riconsidera le affermazioni secondo cui gli agenti LLM raggiungono un successo quasi umano nelle sfide di cybersecurity Capture-the-Flag (CTF). I ricercatori hanno progettato architetture di agenti di complessità crescente su 30 CTF basate sul web, coprendo 14 classi di vulnerabilità, testando diversi backbone LLM rispetto a claude-code, un agente generico. Risultati chiave: claude-code ha risolto 19/30 compiti, eguagliando le architetture specializzate, rivelando che gli agenti generici sono baseline forti. Entrambi hanno incontrato difficoltà nelle stesse categorie di sfide, indicando barriere persistenti. Il lavoro offre una seconda occhiata ai precedenti risultati ottimistici.

Fatti principali

Lo studio riconsidera le affermazioni di prestazioni quasi umane degli agenti LLM nei CTF.
Testato su 30 sfide CTF basate sul web in 14 classi di vulnerabilità.
Confrontate architetture progettate con l'agente generico claude-code.
Claude-code ha risolto 19/30 compiti, paragonabile ai progetti specializzati.
Entrambi i tipi di agenti hanno incontrato difficoltà nelle stesse categorie di sfide.
Gli agenti generici sono baseline forti per la sicurezza offensiva.
Permangono barriere persistenti per gli agenti LLM nei compiti CTF.
La ricerca offre una seconda occhiata ai precedenti tassi di successo riportati.

Agenti LLM per CTF: Prestazioni Rivisitate

Fatti principali

Entità

Istituzioni

Fonti