SecureVibeBench: Benchmarking della Sicurezza del Codice AI tramite Vulnerabilità Reali
I ricercatori hanno presentato SecureVibeBench, un benchmark composto da 105 compiti di codifica sicura in C/C++ tratti da 41 progetti all'interno di OSS-Fuzz. Questo benchmark mira a valutare gli agenti di codice che utilizzano modelli linguistici di grandi dimensioni, ricreando situazioni in cui gli sviluppatori umani hanno inavvertitamente introdotto vulnerabilità. Include modifiche autentiche a più file in repository estesi, allineamenti contestuali basati su vulnerabilità open-source reali con punti di introduzione chiaramente definiti e una valutazione approfondita che combina test di funzionalità con valutazioni di sicurezza utilizzando oracoli statici e dinamici. Sono stati testati cinque agenti di codice ampiamente utilizzati. Questa iniziativa colma una lacuna nei benchmark attuali che trascurano scenari di vulnerabilità introdotte dall'uomo, facilitando confronti equi tra sviluppatori umani e agenti AI.
Fatti principali
- SecureVibeBench include 105 compiti di codifica sicura in C/C++
- Compiti provenienti da 41 progetti in OSS-Fuzz
- Il benchmark ricostruisce scenari di introduzione di vulnerabilità da parte di sviluppatori umani
- Richiede modifiche a più file in repository di grandi dimensioni
- Utilizza vulnerabilità open-source reali con punti di introduzione precisamente identificati
- La valutazione combina test di funzionalità e controllo di sicurezza con oracoli statici e dinamici
- Sono stati valutati cinque agenti di codice popolari
- Colma una lacuna nei benchmark esistenti per un confronto equo tra umani e AI
Entità
Istituzioni
- arXiv
- OSS-Fuzz