SecureVibeBench: Benchmarking della Sicurezza del Codice AI tramite Vulnerabilità Reali

ai-technology · 2026-04-27

I ricercatori hanno presentato SecureVibeBench, un benchmark composto da 105 compiti di codifica sicura in C/C++ tratti da 41 progetti all'interno di OSS-Fuzz. Questo benchmark mira a valutare gli agenti di codice che utilizzano modelli linguistici di grandi dimensioni, ricreando situazioni in cui gli sviluppatori umani hanno inavvertitamente introdotto vulnerabilità. Include modifiche autentiche a più file in repository estesi, allineamenti contestuali basati su vulnerabilità open-source reali con punti di introduzione chiaramente definiti e una valutazione approfondita che combina test di funzionalità con valutazioni di sicurezza utilizzando oracoli statici e dinamici. Sono stati testati cinque agenti di codice ampiamente utilizzati. Questa iniziativa colma una lacuna nei benchmark attuali che trascurano scenari di vulnerabilità introdotte dall'uomo, facilitando confronti equi tra sviluppatori umani e agenti AI.

Fatti principali

SecureVibeBench include 105 compiti di codifica sicura in C/C++
Compiti provenienti da 41 progetti in OSS-Fuzz
Il benchmark ricostruisce scenari di introduzione di vulnerabilità da parte di sviluppatori umani
Richiede modifiche a più file in repository di grandi dimensioni
Utilizza vulnerabilità open-source reali con punti di introduzione precisamente identificati
La valutazione combina test di funzionalità e controllo di sicurezza con oracoli statici e dinamici
Sono stati valutati cinque agenti di codice popolari
Colma una lacuna nei benchmark esistenti per un confronto equo tra umani e AI

SecureVibeBench: Benchmarking della Sicurezza del Codice AI tramite Vulnerabilità Reali

Fatti principali

Entità

Istituzioni

Fonti