Benchmark di Sicurezza per LLM: Studio sulla Qualità del Codice e l'Adozione nella Comunità

ai-technology · 2026-05-18

Una valutazione completa di 31 benchmark di sicurezza per LLM—incentrati su injection di prompt, jailbreak e allucinazioni—insieme a 382 articoli non di benchmark come gruppo di controllo, rivela notevoli carenze nella qualità del codice e nella funzionalità. Questa ricerca integra analisi statica automatizzata, oltre 220 ore di test di eseguibilità umana e analisi bibliometrica. I risultati indicano che solo il 39% dei repository di benchmark funziona senza modifiche, mentre il 16% offre istruzioni di installazione senza errori e solo il 6% considera implicazioni etiche nonostante contenga contenuti potenzialmente pericolosi. Questo studio mira a colmare il vuoto nella valutazione sistematica della qualità del codice dei benchmark e degli elementi che influenzano l'accettazione da parte della comunità.

Fatti principali

31 benchmark di sicurezza per LLM analizzati
382 articoli non di benchmark come gruppo di controllo
Oltre 220 ore-uomo di test di eseguibilità umana
39% dei repository funziona senza modifiche
16% ha guide di installazione impeccabili
6% include considerazioni etiche
Copre injection di prompt, jailbreak e allucinazioni
Combina analisi statica automatizzata, test umani e analisi bibliometrica

Benchmark di Sicurezza per LLM: Studio sulla Qualità del Codice e l'Adozione nella Comunità

Fatti principali

Entità

Istituzioni

Fonti