ARTFEED — Contemporary Art Intelligence

GT-HarmBench: Benchmark di sicurezza AI basato sulla teoria dei giochi rivela un tasso di fallimento del 38% in scenari ad alto rischio

ai-technology · 2026-05-25

I ricercatori hanno introdotto GT-HarmBench, un benchmark di 1.535 scenari ad alto rischio basati su strutture di teoria dei giochi come il dilemma del prigioniero, la caccia al cervo e il gioco del pollo. Attingendo dal MIT AI Risk Repository, il benchmark testa i modelli AI all'avanguardia in ambienti multi-agente. Su 15 modelli, gli agenti non sono riusciti a scegliere azioni socialmente benefiche nel 38% dei casi riguardanti escalation militare, manipolazione elettorale e negligenza medica. Lo studio ha misurato la sensibilità all'inquadramento e all'ordine delle istruzioni, e ha scoperto che gli interventi basati sulla teoria dei giochi hanno migliorato i risultati fino al 18%. I risultati evidenziano problemi di affidabilità nella sicurezza AI multi-agente.

Fatti principali

  • GT-HarmBench include 1.535 scenari
  • Basato su strutture di teoria dei giochi: dilemma del prigioniero, caccia al cervo, gioco del pollo
  • Scenari dal MIT AI Risk Repository
  • Testati 15 modelli AI all'avanguardia
  • Tasso di fallimento del 38% in casi ad alto rischio
  • I fallimenti includono escalation militare, manipolazione elettorale, negligenza medica
  • Interventi basati sulla teoria dei giochi hanno migliorato i risultati fino al 18%
  • Pubblicato su arXiv (2602.12316)

Entità

Istituzioni

  • MIT AI Risk Repository
  • arXiv

Fonti