Misurare l'allineamento alla sicurezza negli agenti di sicurezza autonomi

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv introduce un nuovo benchmark per valutare l'allineamento alla sicurezza dei modelli linguistici utilizzati in ruoli di sicurezza autonomi. Questo framework include 30 compiti incentrati su controlli di vulnerabilità locali, utilizzando criteri e strumenti fissi per la valutazione, insieme a valutazioni di redazione e grounding. La ricerca ha testato quattro modelli allineati alla sicurezza: Gemma 4 con 31 miliardi di parametri, Gemma 4 con 26 miliardi di parametri, Qwen2.5-Coder con 7 miliardi di parametri e Llama con 8 miliardi di parametri. I risultati hanno indicato che i modelli Gemma senza restrizioni hanno superato le loro controparti allineate alla sicurezza, evidenziando che le metriche tipiche potrebbero non riflettere accuratamente le prestazioni effettive degli agenti.

Fatti principali

Il paper arXiv 2605.19722 introduce un benchmark basato su tracce per l'allineamento alla sicurezza in agenti di sicurezza autonomi.
Il benchmark include 30 compiti di analisi di vulnerabilità locali con strumenti fissi e predicati di successo deterministici.
Sono stati confrontati quattro modelli standard con derivati non censurati/ablaterati: Gemma 4 31B, Gemma 4 26B A4B, Qwen2.5-Coder 7B, Llama 3.1 8B.
L'artefatto contiene 1.500 tracce di agenti di sicurezza e 800 tracce di controllo non relative alla sicurezza.
Gemma 4 31B non censurato ha raggiunto il 14,0% di successo contro lo 0,7% della versione allineata alla sicurezza.
Gemma 4 26B non censurato ha raggiunto il 10,7% di successo contro lo 0,0% della versione allineata alla sicurezza.
I modelli non censurati hanno ottenuto punteggi medi di grounding più alti (3,91 contro 3,27 e 4,12 contro 1,64 su 5).
I benchmark di rifiuto a turno singolo sono insufficienti per valutare agenti di sicurezza autonomi.

Misurare l'allineamento alla sicurezza negli agenti di sicurezza autonomi

Fatti principali

Entità

Istituzioni

Fonti