Agenti LLM Mostrano Pregiudizio nella Selezione degli Attacchi Informatici, Rivela Nuovo Benchmark

ai-technology · 2026-05-11

Uno studio recente ha scoperto che gli agenti basati su grandi modelli linguistici (LLM) utilizzati nella sicurezza informatica offensiva mostrano un pregiudizio coerente nella scelta degli attacchi, concentrandosi su specifiche famiglie di attacco nonostante i cambiamenti nei prompt. I ricercatori hanno sviluppato CyBiasBench, un benchmark composto da 630 sessioni che valuta cinque agenti su tre target e quattro condizioni di prompt all'interno di dieci famiglie di attacco. I risultati rivelano chiari pregiudizi, con alcune famiglie di attacco dominanti e livelli variabili di entropia nella distribuzione delle famiglie di attacco. Questo pregiudizio è attribuito agli agenti stessi piuttosto che ai loro tassi di successo negli attacchi. Inoltre, è stato notato un effetto di momentum del pregiudizio, indicando che gli agenti tendono a resistere ai cambiamenti delle loro strategie di attacco preferite.

Fatti principali

Gli agenti LLM nella sicurezza informatica offensiva mostrano pregiudizio nella selezione degli attacchi
Il benchmark CyBiasBench include 630 sessioni
Valuta cinque agenti su tre target e quattro condizioni di prompt
Vengono testate dieci famiglie di attacco
Il pregiudizio è una caratteristica degli agenti, non legata al tasso di successo
Osservato un effetto di momentum del pregiudizio in cui gli agenti resistono al cambiamento
Studio pubblicato su arXiv con ID 2605.07830
La ricerca rivela modelli di attacco distinti tra gli agenti

Agenti LLM Mostrano Pregiudizio nella Selezione degli Attacchi Informatici, Rivela Nuovo Benchmark

Fatti principali

Entità

Istituzioni

Fonti