Framework CNN-CodeBERT per il rilevamento di fughe di credenziali a tre classi
Un nuovo framework ibrido che combina CNN e CodeBERT raggiunge risultati all'avanguardia nel rilevamento di fughe di credenziali nel codice sorgente. Il modello a tre classi distingue le credenziali genuine da placeholder e credenziali deboli, riducendo i falsi positivi. Su un dataset di 9.426 campioni in 10 linguaggi, ottiene un MCC di 0,86 e un macro F1 di 0,90, con un richiamo del 93% e una precisione dell'89% per le fughe genuine. Gli avvisi di alta gravità sono diminuiti del 33% senza compromettere la sicurezza. Il lavoro affronta i 23,8 milioni di segreti esposti nel 2024.
Fatti principali
- 23,8 milioni di segreti esposti nel 2024
- Framework di classificazione a tre classi
- Modello ibrido CNN-CodeBERT
- Dataset di 9.426 campioni in 10 linguaggi di programmazione
- Coefficiente di correlazione di Matthews di 0,86
- Macro F1-score di 0,90
- 93% di richiamo e 89% di precisione per le fughe di credenziali genuine
- Riduzione del 33% degli avvisi di alta gravità (da 373 a 250)
Entità
—