ARTFEED — Contemporary Art Intelligence

SecureVibeBench: Benchmarking della Sicurezza del Codice AI tramite Vulnerabilità Reali

ai-technology · 2026-04-27

I ricercatori hanno presentato SecureVibeBench, un benchmark composto da 105 compiti di codifica sicura in C/C++ tratti da 41 progetti all'interno di OSS-Fuzz. Questo benchmark mira a valutare gli agenti di codice che utilizzano modelli linguistici di grandi dimensioni, ricreando situazioni in cui gli sviluppatori umani hanno inavvertitamente introdotto vulnerabilità. Include modifiche autentiche a più file in repository estesi, allineamenti contestuali basati su vulnerabilità open-source reali con punti di introduzione chiaramente definiti e una valutazione approfondita che combina test di funzionalità con valutazioni di sicurezza utilizzando oracoli statici e dinamici. Sono stati testati cinque agenti di codice ampiamente utilizzati. Questa iniziativa colma una lacuna nei benchmark attuali che trascurano scenari di vulnerabilità introdotte dall'uomo, facilitando confronti equi tra sviluppatori umani e agenti AI.

Fatti principali

  • SecureVibeBench include 105 compiti di codifica sicura in C/C++
  • Compiti provenienti da 41 progetti in OSS-Fuzz
  • Il benchmark ricostruisce scenari di introduzione di vulnerabilità da parte di sviluppatori umani
  • Richiede modifiche a più file in repository di grandi dimensioni
  • Utilizza vulnerabilità open-source reali con punti di introduzione precisamente identificati
  • La valutazione combina test di funzionalità e controllo di sicurezza con oracoli statici e dinamici
  • Sono stati valutati cinque agenti di codice popolari
  • Colma una lacuna nei benchmark esistenti per un confronto equo tra umani e AI

Entità

Istituzioni

  • arXiv
  • OSS-Fuzz

Fonti