ARTFEED — Contemporary Art Intelligence

Benchmark di Sicurezza per LLM: Studio sulla Qualità del Codice e l'Adozione nella Comunità

ai-technology · 2026-05-18

Una valutazione completa di 31 benchmark di sicurezza per LLM—incentrati su injection di prompt, jailbreak e allucinazioni—insieme a 382 articoli non di benchmark come gruppo di controllo, rivela notevoli carenze nella qualità del codice e nella funzionalità. Questa ricerca integra analisi statica automatizzata, oltre 220 ore di test di eseguibilità umana e analisi bibliometrica. I risultati indicano che solo il 39% dei repository di benchmark funziona senza modifiche, mentre il 16% offre istruzioni di installazione senza errori e solo il 6% considera implicazioni etiche nonostante contenga contenuti potenzialmente pericolosi. Questo studio mira a colmare il vuoto nella valutazione sistematica della qualità del codice dei benchmark e degli elementi che influenzano l'accettazione da parte della comunità.

Fatti principali

  • 31 benchmark di sicurezza per LLM analizzati
  • 382 articoli non di benchmark come gruppo di controllo
  • Oltre 220 ore-uomo di test di eseguibilità umana
  • 39% dei repository funziona senza modifiche
  • 16% ha guide di installazione impeccabili
  • 6% include considerazioni etiche
  • Copre injection di prompt, jailbreak e allucinazioni
  • Combina analisi statica automatizzata, test umani e analisi bibliometrica

Entità

Istituzioni

  • arXiv

Fonti