GT-HarmBench: Benchmark di sicurezza AI basato sulla teoria dei giochi rivela un tasso di fallimento del 38% in scenari ad alto rischio

ai-technology · 2026-05-25

I ricercatori hanno introdotto GT-HarmBench, un benchmark di 1.535 scenari ad alto rischio basati su strutture di teoria dei giochi come il dilemma del prigioniero, la caccia al cervo e il gioco del pollo. Attingendo dal MIT AI Risk Repository, il benchmark testa i modelli AI all'avanguardia in ambienti multi-agente. Su 15 modelli, gli agenti non sono riusciti a scegliere azioni socialmente benefiche nel 38% dei casi riguardanti escalation militare, manipolazione elettorale e negligenza medica. Lo studio ha misurato la sensibilità all'inquadramento e all'ordine delle istruzioni, e ha scoperto che gli interventi basati sulla teoria dei giochi hanno migliorato i risultati fino al 18%. I risultati evidenziano problemi di affidabilità nella sicurezza AI multi-agente.

Fatti principali

GT-HarmBench include 1.535 scenari
Basato su strutture di teoria dei giochi: dilemma del prigioniero, caccia al cervo, gioco del pollo
Scenari dal MIT AI Risk Repository
Testati 15 modelli AI all'avanguardia
Tasso di fallimento del 38% in casi ad alto rischio
I fallimenti includono escalation militare, manipolazione elettorale, negligenza medica
Interventi basati sulla teoria dei giochi hanno migliorato i risultati fino al 18%
Pubblicato su arXiv (2602.12316)

GT-HarmBench: Benchmark di sicurezza AI basato sulla teoria dei giochi rivela un tasso di fallimento del 38% in scenari ad alto rischio

Fatti principali

Entità

Istituzioni

Fonti