ARTFEED — Contemporary Art Intelligence

Agenti LLM Mostrano Pregiudizio nella Selezione degli Attacchi Informatici, Rivela Nuovo Benchmark

ai-technology · 2026-05-11

Uno studio recente ha scoperto che gli agenti basati su grandi modelli linguistici (LLM) utilizzati nella sicurezza informatica offensiva mostrano un pregiudizio coerente nella scelta degli attacchi, concentrandosi su specifiche famiglie di attacco nonostante i cambiamenti nei prompt. I ricercatori hanno sviluppato CyBiasBench, un benchmark composto da 630 sessioni che valuta cinque agenti su tre target e quattro condizioni di prompt all'interno di dieci famiglie di attacco. I risultati rivelano chiari pregiudizi, con alcune famiglie di attacco dominanti e livelli variabili di entropia nella distribuzione delle famiglie di attacco. Questo pregiudizio è attribuito agli agenti stessi piuttosto che ai loro tassi di successo negli attacchi. Inoltre, è stato notato un effetto di momentum del pregiudizio, indicando che gli agenti tendono a resistere ai cambiamenti delle loro strategie di attacco preferite.

Fatti principali

  • Gli agenti LLM nella sicurezza informatica offensiva mostrano pregiudizio nella selezione degli attacchi
  • Il benchmark CyBiasBench include 630 sessioni
  • Valuta cinque agenti su tre target e quattro condizioni di prompt
  • Vengono testate dieci famiglie di attacco
  • Il pregiudizio è una caratteristica degli agenti, non legata al tasso di successo
  • Osservato un effetto di momentum del pregiudizio in cui gli agenti resistono al cambiamento
  • Studio pubblicato su arXiv con ID 2605.07830
  • La ricerca rivela modelli di attacco distinti tra gli agenti

Entità

Istituzioni

  • arXiv

Fonti