Framework CNN-CodeBERT per il rilevamento di fughe di credenziali a tre classi

ai-technology · 2026-06-01

Un nuovo framework ibrido che combina CNN e CodeBERT raggiunge risultati all'avanguardia nel rilevamento di fughe di credenziali nel codice sorgente. Il modello a tre classi distingue le credenziali genuine da placeholder e credenziali deboli, riducendo i falsi positivi. Su un dataset di 9.426 campioni in 10 linguaggi, ottiene un MCC di 0,86 e un macro F1 di 0,90, con un richiamo del 93% e una precisione dell'89% per le fughe genuine. Gli avvisi di alta gravità sono diminuiti del 33% senza compromettere la sicurezza. Il lavoro affronta i 23,8 milioni di segreti esposti nel 2024.

Fatti principali

23,8 milioni di segreti esposti nel 2024
Framework di classificazione a tre classi
Modello ibrido CNN-CodeBERT
Dataset di 9.426 campioni in 10 linguaggi di programmazione
Coefficiente di correlazione di Matthews di 0,86
Macro F1-score di 0,90
93% di richiamo e 89% di precisione per le fughe di credenziali genuine
Riduzione del 33% degli avvisi di alta gravità (da 373 a 250)

Entità

—

Fonti

arXiv cs.AI — 2026-06-01