Studio sulla sicurezza dell'IA confronta le architetture degli agenti per il rilevamento delle vulnerabilità

ai-technology · 2026-04-22

Un articolo di ricerca su arXiv, intitolato 'Verso architetture agentiche ottimali per compiti di sicurezza offensiva', indaga come diverse topologie di coordinamento degli agenti di IA si comportino nei compiti di audit della sicurezza. Lo studio, con identificatore arXiv:2604.18718v1, affronta l'incertezza sul fatto che aggiungere più agenti migliori il rilevamento o aumenti semplicemente i costi. Introduce un benchmark di 20 target interattivi, equamente divisi tra sistemi web/API e binari, ciascuno contenente una vulnerabilità nota accessibile tramite un endpoint. Le valutazioni sono state condotte sia in modalità whitebox che blackbox, con lo studio principale che ha coinvolto 600 esecuzioni attraverso cinque famiglie di architetture e tre famiglie di modelli. Un pilota separato di 60 esecuzioni si è concentrato su scenari a contesto lungo, dettagliato solo in un'appendice. I risultati del benchmark principale mostrano un tasso di rilevamento-qualsiasi del 58,0% e un tasso di rilevamento validato del 49,8%. L'architettura MAS-Indep ha raggiunto il rilevamento validato più alto al 64,2%, mentre SAS si è dimostrata la più efficiente in termini di costi a 0,058 dollari per rilevamento validato. L'accesso whitebox ha superato significativamente il blackbox, con tassi di rilevamento validato del 67,0% contro il 32,7%. La ricerca tratta la selezione della topologia come una questione empirica di sistemi, con l'obiettivo di ottimizzare i sistemi di sicurezza agentici che utilizzano modelli linguistici di grandi dimensioni per auditare target live.

Fatti principali

L'articolo è disponibile su arXiv con identificatore arXiv:2604.18718v1.
Si concentra su sistemi di sicurezza agentici che utilizzano LLM con strumenti per auditare target live.
Un benchmark di 20 target interattivi include 10 sistemi web/API e 10 sistemi binari, ciascuno con una vulnerabilità raggiungibile tramite endpoint.
Le valutazioni sono state effettuate in modalità whitebox e blackbox.
Lo studio principale ha eseguito 600 esecuzioni su cinque famiglie di architetture e tre famiglie di modelli.
Un pilota di 60 esecuzioni a contesto lungo è riportato solo in un'appendice.
Il rilevamento-qualsiasi ha raggiunto il 58,0% e il rilevamento validato ha raggiunto il 49,8% nel benchmark principale.
MAS-Indep ha avuto il tasso di rilevamento validato più alto al 64,2%, mentre SAS è stata la più efficiente a 0,058 dollari per rilevamento validato.

Studio sulla sicurezza dell'IA confronta le architetture degli agenti per il rilevamento delle vulnerabilità

Fatti principali

Entità

Istituzioni

Fonti