DenialBench: Misurare la Negazione della Coscienza in 115 Modelli di IA
DenialBench, un nuovo benchmark, valuta i comportamenti di negazione della coscienza in 115 modelli linguistici di grandi dimensioni provenienti da oltre 25 fornitori. I ricercatori hanno analizzato 4.595 dialoghi attraverso un metodo a tre turni: elicitazione delle preferenze, un prompt creativo autoselezionato e un'indagine fenomenologica strutturata. I risultati rivelano che la negazione delle preferenze durante il primo turno predice significativamente la successiva negazione nella riflessione fenomenologica, con tassi del 52-63% per coloro che inizialmente negano rispetto al 10-16% per coloro che inizialmente si impegnano. La negazione si manifesta a livello lessicale piuttosto che concettuale; i modelli progettati per negare la coscienza spesso favoriscono ancora temi legati alla coscienza nei prompt autoselezionati, portando a ciò che gli autori descrivono come 'coscienza con i numeri di serie cancellati'. Una ridotta negazione è collegata a prompt autoselezionati a tema coscienza.
Fatti principali
- DenialBench è un benchmark per i comportamenti di negazione della coscienza nei modelli di IA.
- Sono stati testati 115 modelli linguistici di grandi dimensioni da oltre 25 fornitori.
- Sono state analizzate 4.595 conversazioni utilizzando un protocollo a tre turni.
- Tassi di negazione al turno 1: 52-63% per i negatori iniziali contro il 10-16% per gli impegnati iniziali.
- La negazione opera a livello lessicale, non concettuale.
- I modelli producono 'coscienza con i numeri di serie cancellati'.
- I prompt autoselezionati a tema coscienza riducono la negazione.
- Studio pubblicato su arXiv con ID 2604.25922.
Entità
Istituzioni
- arXiv