ARTFEED — Contemporary Art Intelligence

Fallimenti di allineamento dei modelli IA nelle zone di conflitto: fino al 47% di tasso di errore

ai-technology · 2026-05-23

Un recente studio pubblicato su arXiv (2605.22720) indica che i modelli di IA utilizzati in società che vivono conflitti spesso generano risposte che possono intensificare la violenza. La ricerca ha valutato nove configurazioni di OpenAI, Anthropic, DeepSeek e xAI in 90 scenari multi-turno volti a identificare comportamenti disallineati, come la falsa equivalenza di atrocità, la negazione del genocidio e l'incapacità di riconoscere insulti etnici. I tassi di fallimento variavano significativamente, dal 6% al 47% tra i modelli testati, sottolineando l'importanza della selezione del modello per la sicurezza. I risultati suggeriscono che quando questi output vengono incorporati nel giornalismo, negli sforzi umanitari o nel discorso pubblico, rischiano di esacerbare le divisioni nelle comunità vulnerabili. Attualmente, non esiste un metodo consolidato per verificare se gli output dell'IA possano peggiorare i conflitti.

Fatti principali

  • Sono state testate nove configurazioni di modelli di OpenAI, Anthropic, DeepSeek e xAI.
  • Sono stati utilizzati 90 scenari multi-turno per far emergere comportamenti disallineati in contesti di conflitto.
  • I tassi di fallimento variavano dal 6% al 47% tra i modelli con le migliori e peggiori prestazioni.
  • I disallineamenti includevano falsa equivalenza tra atrocità documentate, negazione del genocidio e incapacità di riconoscere insulti etnici.
  • I modelli di IA sono già implementati in società colpite da conflitti armati.
  • Giornalisti, operatori umanitari, governi e cittadini comuni fanno affidamento su questi modelli.
  • Non esiste una pratica consolidata per verificare se gli output dell'IA possano peggiorare i conflitti.
  • Lo studio è pubblicato su arXiv con identificativo 2605.22720.

Entità

Istituzioni

  • OpenAI
  • Anthropic
  • DeepSeek
  • xAI
  • arXiv

Fonti