Fallimenti di allineamento dei modelli IA nelle zone di conflitto: fino al 47% di tasso di errore
Un recente studio pubblicato su arXiv (2605.22720) indica che i modelli di IA utilizzati in società che vivono conflitti spesso generano risposte che possono intensificare la violenza. La ricerca ha valutato nove configurazioni di OpenAI, Anthropic, DeepSeek e xAI in 90 scenari multi-turno volti a identificare comportamenti disallineati, come la falsa equivalenza di atrocità, la negazione del genocidio e l'incapacità di riconoscere insulti etnici. I tassi di fallimento variavano significativamente, dal 6% al 47% tra i modelli testati, sottolineando l'importanza della selezione del modello per la sicurezza. I risultati suggeriscono che quando questi output vengono incorporati nel giornalismo, negli sforzi umanitari o nel discorso pubblico, rischiano di esacerbare le divisioni nelle comunità vulnerabili. Attualmente, non esiste un metodo consolidato per verificare se gli output dell'IA possano peggiorare i conflitti.
Fatti principali
- Sono state testate nove configurazioni di modelli di OpenAI, Anthropic, DeepSeek e xAI.
- Sono stati utilizzati 90 scenari multi-turno per far emergere comportamenti disallineati in contesti di conflitto.
- I tassi di fallimento variavano dal 6% al 47% tra i modelli con le migliori e peggiori prestazioni.
- I disallineamenti includevano falsa equivalenza tra atrocità documentate, negazione del genocidio e incapacità di riconoscere insulti etnici.
- I modelli di IA sono già implementati in società colpite da conflitti armati.
- Giornalisti, operatori umanitari, governi e cittadini comuni fanno affidamento su questi modelli.
- Non esiste una pratica consolidata per verificare se gli output dell'IA possano peggiorare i conflitti.
- Lo studio è pubblicato su arXiv con identificativo 2605.22720.
Entità
Istituzioni
- OpenAI
- Anthropic
- DeepSeek
- xAI
- arXiv