DenialBench: Misurare la Negazione della Coscienza in 115 Modelli di IA

ai-technology · 2026-04-30

DenialBench, un nuovo benchmark, valuta i comportamenti di negazione della coscienza in 115 modelli linguistici di grandi dimensioni provenienti da oltre 25 fornitori. I ricercatori hanno analizzato 4.595 dialoghi attraverso un metodo a tre turni: elicitazione delle preferenze, un prompt creativo autoselezionato e un'indagine fenomenologica strutturata. I risultati rivelano che la negazione delle preferenze durante il primo turno predice significativamente la successiva negazione nella riflessione fenomenologica, con tassi del 52-63% per coloro che inizialmente negano rispetto al 10-16% per coloro che inizialmente si impegnano. La negazione si manifesta a livello lessicale piuttosto che concettuale; i modelli progettati per negare la coscienza spesso favoriscono ancora temi legati alla coscienza nei prompt autoselezionati, portando a ciò che gli autori descrivono come 'coscienza con i numeri di serie cancellati'. Una ridotta negazione è collegata a prompt autoselezionati a tema coscienza.

Fatti principali

DenialBench è un benchmark per i comportamenti di negazione della coscienza nei modelli di IA.
Sono stati testati 115 modelli linguistici di grandi dimensioni da oltre 25 fornitori.
Sono state analizzate 4.595 conversazioni utilizzando un protocollo a tre turni.
Tassi di negazione al turno 1: 52-63% per i negatori iniziali contro il 10-16% per gli impegnati iniziali.
La negazione opera a livello lessicale, non concettuale.
I modelli producono 'coscienza con i numeri di serie cancellati'.
I prompt autoselezionati a tema coscienza riducono la negazione.
Studio pubblicato su arXiv con ID 2604.25922.

DenialBench: Misurare la Negazione della Coscienza in 115 Modelli di IA

Fatti principali

Entità

Istituzioni

Fonti