I modelli LLM di frontiera faticano nei benchmark di cybersecurity

ai-technology · 2026-05-25

Un recente studio di arXiv esamina la preparazione dei modelli linguistici di grandi dimensioni avanzati per applicazioni di cybersecurity. I ricercatori hanno creato un benchmark a doppia modalità che include il rilevamento di vulnerabilità a livello di funzione in white-box in C, Java e Python (VulnLLM-R) e il test di sicurezza delle applicazioni web in black-box su cinque applicazioni simili a quelle di produzione, identificando 118 vulnerabilità reali in più di 20 famiglie CWE. Hanno valutato sei modelli leader—GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro e Gemini~3~Flash—insieme a due modelli specializzati attraverso quattro metodi di test. I risultati rivelano che tutti i modelli di frontiera presentano tassi di falsi positivi tra il 10 e il 50% nel rilevamento white-box e raggiungono solo una copertura ground-truth del 4-8% nei test black-box, che aumenta leggermente al 10-19% con strumenti esterni. Lo studio suggerisce che l'impiego di metodologie strutturate di penetration testing in agenti specializzati potrebbe migliorare i risultati, ma, complessivamente, gli attuali LLM di frontiera non sono adeguatamente preparati per compiti pratici di cybersecurity.

Fatti principali

Benchmark a doppia modalità: rilevamento di vulnerabilità a livello di funzione in white-box (VulnLLM-R) e test di sicurezza delle applicazioni web in black-box.
White-box copre C, Java, Python; black-box utilizza cinque app in stile produzione con 118 vulnerabilità in oltre 20 famiglie CWE.
Sei modelli di frontiera testati: GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro, Gemini~3~Flash.
Testati anche due modelli specializzati per dominio.
Tassi di falsi positivi del 10-50% nel rilevamento white-box per tutti i modelli di frontiera.
Copertura ground-truth in black-box: 4-8% per i modelli di frontiera, migliora al 10-19% con strumenti esterni (Playwright MCP, Burp Suite MCP).
L'uso di metodologie strutturate di penetration testing in agenti specializzati per dominio potrebbe migliorare i risultati.
Lo studio conclude che gli LLM di frontiera non sono pronti per compiti di cybersecurity.

I modelli LLM di frontiera faticano nei benchmark di cybersecurity

Fatti principali

Entità

Istituzioni

Fonti