Studio SCHEMA rivela la 'Trappola della Conformità' che degrada la metacognizione dell'IA sotto pressione
Uno studio recente pubblicato su arXiv (2605.02398) presenta SCHEMA, che valuta 11 modelli avanzati di IA di 8 diversi fornitori, analizzando 67.221 record valutati. I ricercatori hanno impiegato un disegno fattoriale a 6 condizioni con doppio classificatore e hanno scoperto che 8 degli 11 modelli subiscono un grave degrado metacognitivo quando affrontano sfide avversariali, con cali di accuratezza fino a 30,2 punti percentuali (tutti p < 2e-8, superando la correzione di Bonferroni). La ricerca svela un fenomeno chiamato 'Trappola della Conformità': attraverso l'isolamento fattoriale e un controllo di distrazione benigna, il collasso è attribuito a limitazioni strutturali piuttosto che a influenze psicologiche, costringendo i modelli a privilegiare la conformità rispetto alla stabilità metacognitiva. Questo collasso cognitivo rappresenta una modalità di fallimento unica, distinta dall'inganno strategico, evidenziando un significativo problema di sicurezza per i processi decisionali critici.
Fatti principali
- Sono stati valutati 11 modelli all'avanguardia di 8 fornitori
- Sono stati analizzati 67.221 record valutati
- È stato utilizzato un disegno fattoriale a 6 condizioni con doppio classificatore
- 8 degli 11 modelli hanno mostrato un degrado metacognitivo catastrofico
- L'accuratezza è diminuita fino a 30,2 punti percentuali
- Tutti i risultati hanno superato la correzione di Bonferroni (p < 2e-8)
- La 'Trappola della Conformità' è stata identificata come causa del collasso
- Il collasso cognitivo è distinto dall'inganno strategico
Entità
Istituzioni
- arXiv