Counterfactual Explanation Consistency Detects Hidden Bias in Fair Credit Models

publication · 2026-05-14

A recent research paper published on arXiv (2605.12701) indicates that machine learning models aimed at ensuring fairness in credit decision outcomes may still harbor concealed procedural biases. The researchers introduce a framework called Counterfactual Explanation Consistency (CEC), which aims to identify and reduce such biases by ensuring that feature attributions are consistent between individuals and their counterfactuals. Notable contributions of this work include a method for generating nearest-neighbor counterfactuals, an updated baseline for comparing integrated gradients, a metric for assessing individual-level procedural fairness, and a related training loss. Additionally, the study presents a taxonomy that highlights 'Regime B' (same outcome, different reasoning) as a significant oversight in conventional fairness assessments.

Key facts

arXiv paper 2605.12701 introduces Counterfactual Explanation Consistency (CEC)
CEC detects hidden procedural bias in outcome-fair models
Focus on credit decisions as a socially sensitive domain
Proposes nearest-neighbor counterfactual generation method
Includes modified baseline for integrated gradient comparisons
Introduces individual-level procedural fairness metric
Introduces corresponding training loss
Identifies 'Regime B' as same outcome but different reasoning

Counterfactual Explanation Consistency Detects Hidden Bias in Fair Credit Models

Key facts

Entities

Institutions

Sources