Fallimenti di allineamento dei modelli IA nelle zone di conflitto: fino al 47% di tasso di errore

ai-technology · 2026-05-23

Un recente studio pubblicato su arXiv (2605.22720) indica che i modelli di IA utilizzati in società che vivono conflitti spesso generano risposte che possono intensificare la violenza. La ricerca ha valutato nove configurazioni di OpenAI, Anthropic, DeepSeek e xAI in 90 scenari multi-turno volti a identificare comportamenti disallineati, come la falsa equivalenza di atrocità, la negazione del genocidio e l'incapacità di riconoscere insulti etnici. I tassi di fallimento variavano significativamente, dal 6% al 47% tra i modelli testati, sottolineando l'importanza della selezione del modello per la sicurezza. I risultati suggeriscono che quando questi output vengono incorporati nel giornalismo, negli sforzi umanitari o nel discorso pubblico, rischiano di esacerbare le divisioni nelle comunità vulnerabili. Attualmente, non esiste un metodo consolidato per verificare se gli output dell'IA possano peggiorare i conflitti.

Fatti principali

Sono state testate nove configurazioni di modelli di OpenAI, Anthropic, DeepSeek e xAI.
Sono stati utilizzati 90 scenari multi-turno per far emergere comportamenti disallineati in contesti di conflitto.
I tassi di fallimento variavano dal 6% al 47% tra i modelli con le migliori e peggiori prestazioni.
I disallineamenti includevano falsa equivalenza tra atrocità documentate, negazione del genocidio e incapacità di riconoscere insulti etnici.
I modelli di IA sono già implementati in società colpite da conflitti armati.
Giornalisti, operatori umanitari, governi e cittadini comuni fanno affidamento su questi modelli.
Non esiste una pratica consolidata per verificare se gli output dell'IA possano peggiorare i conflitti.
Lo studio è pubblicato su arXiv con identificativo 2605.22720.

Entità

Istituzioni

OpenAI
Anthropic
DeepSeek
xAI
arXiv

Fonti

arXiv cs.AI — 2026-05-23