CyberSecQwen-4B: un piccolo modello di IA specializzato per la cybersecurity difensiva
CyberSecQwen-4B è un modello linguistico da 4 miliardi di parametri ottimizzato per compiti ristretti di cybersecurity come la classificazione CWE e il Q&A CTI. Sviluppato da lablab-ai nell'AMD Developer Hackathon, funziona su una singola GPU consumer da 12 GB, evitando i costi e l'esposizione dei dati delle API ospitate. Il modello mantiene il 97,3% dell'accuratezza CTI-RCM del modello Cisco 8B Foundation-Sec-Instruct, superando il suo punteggio CTI-MCQ di 8,7 punti. L'addestramento ha utilizzato mapping MITRE/NVD CVE-to-CWE e Q&A sintetici, deduplicati rispetto a CTI-Bench. Il modello base è Qwen3-4B-Instruct-2507, ottimizzato su una singola AMD MI300X tramite ROCm 7. Un modello gemello, Gemma4Defense-2B, mostra prestazioni simili. Il modello è concesso in licenza Apache 2.0 e disponibile su Hugging Face. È progettato per ambienti locali e air-gapped e non è esplicitamente destinato alla generazione di codice exploit o a decisioni di sicurezza autonome.
Fatti principali
- CyberSecQwen-4B è un modello da 4B parametri per compiti di cybersecurity difensiva.
- Funziona su una singola GPU consumer da 12 GB.
- Mantiene il 97,3% dell'accuratezza CTI-RCM del modello Cisco 8B.
- Supera il modello Cisco 8B su CTI-MCQ di 8,7 punti.
- Addestrato su mapping MITRE/NVD CVE-to-CWE e Q&A sintetici.
- Il modello base è Qwen3-4B-Instruct-2507.
- Il modello gemello Gemma4Defense-2B mostra prestazioni simili.
- Il modello è concesso in licenza Apache 2.0.
Entità
Istituzioni
- Cisco
- MITRE
- NVD
- AMD
- Hugging Face
- lablab-ai
- AMD Developer Cloud