Audit incentrato sull'umano rivela che i benchmark del Valore di Shapley sono disallineati rispetto alle esigenze degli utenti
Uno studio recente pubblicato su arXiv (2604.22662) mette in discussione la valutazione dei valori di Shapley nell'IA spiegabile, rivelando che metriche tradizionali come la scarsità e la fedeltà non correlano con le percezioni umane di chiarezza o efficacia decisionale. I ricercatori hanno impiegato un framework ammortizzato unificato per differenziare le variazioni semantiche tra otto varianti di Shapley, rispettando al contempo i requisiti di bassa latenza nei flussi di lavoro operativi a rischio. Hanno condotto un'ampia analisi empirica utilizzando quattro dataset di rischio e uno scenario pratico di rilevamento frodi che ha coinvolto 3.735 revisioni di casi da parte di analisti professionisti. I risultati hanno indicato che nessuna variante ha migliorato le prestazioni degli analisti e che le spiegazioni non hanno migliorato il processo decisionale in situazioni critiche. Questo studio evidenzia la necessità di benchmark incentrati sull'umano per valutare l'XAI.
Fatti principali
- Studio da arXiv (2604.22662) valuta le varianti del valore di Shapley in contesti ad alto rischio
- Otto varianti di Shapley confrontate sotto vincoli di bassa latenza
- Valutazione effettuata utilizzando quattro dataset di rischio e un ambiente di rilevamento frodi
- 3.735 revisioni di casi condotte da analisti professionisti
- Metriche standard (scarsità, fedeltà) disaccoppiate dalla chiarezza percepita dall'umano
- Nessuna formulazione ha migliorato le prestazioni oggettive degli analisti
- Richiesta di benchmark incentrati sull'umano nella valutazione dell'XAI
Entità
Istituzioni
- arXiv