`

Debiasing Alternative Data for Credit Underwriting Using Causal Inference

创建于 更新于

摘要

本报告提出一种基于因果推断的方法对另类数据进行去偏,使其可安全应用于信用审核,避免代理歧视和非法偏见。通过构建因果贝叶斯网络模型,区分合法数据路径与非法代理路径,训练时引入受保护属性作为调整变量,推断时置固定默认值,成功消除代理歧视风险。实证基于国家抵押贷款调查数据验证,该算法在提升模型整体准确性的同时,显著减少了不同族群间的模型偏差,兼顾公平性与精度 [page::0][page::2][page::3][page::4][page::6]。

速读内容

  • 报告的核心问题在于另类数据在信用评分中可能充当对受保护类属性(如种族)的非法代理,导致模型出现歧视和偏见 [page::0][page::2]。


- 传统信用评分模型依赖传统数据集$XW$测量借款人信用(中介变量$W$),实现“无感公平”(fairness through unawareness),但存在无法完全消除间接偏差风险。
- 因果图模型中,受保护属性$A$通过非因果的“代理路径”影响信用决策$D$,产生非法代理歧视。
  • 通过引入因果贝叶斯网络结构,区分非因果路径与因果路径,识别受保护属性对另类数据$XZ$的代理效应 [page::1][page::2][page::3]。

  • 该方法通过训练过程引入受保护属性$A$作为调节变量,利用backdoor调整阻断非法代理路径,实现对另类数据的去偏;推断阶段对$A$设定固定默认值(如将所有借款人视作白人)以满足无不公平歧视的法律要求 [page::3][page::4]。

  • 在实验部分,基于国家抵押贷款调查(NSMO)数据集训练了三类模型:

- Awareness模型(包含种族信息,准确率最高但存在直接歧视)
- Unawareness模型(剔除种族及其高度相关特征,准确率降低,体现现有行业普遍采用方案)
- Counterfactual模型(训练时含种族信息,推断时置默认种族实现去偏) [page::6.1]
  • 结果显示,Counterfactual模型在保持高准确率的同时,大幅减少了种族间性能差异,缓解了模型对黑人借款人的不公平对待,同时避免了直接歧视的风险 [page::6.2]:


- 该模型恢复了Awareness模型大部分性能损失,且显著优于Unawareness模型。
  • 该因果推断框架为金融领域利用更丰富另类数据评估信用风险提供了理论和实践基础,兼顾模型公正性和准确性,具有广泛应用潜力和政策启示 [page::5]

深度阅读

金融AI研报深度分析报告


—《Debiasing Alternative Data for Credit Underwriting Using Causal Inference》详解



---

1. 元数据与概览



报告标题: Debiasing Alternative Data for Credit Underwriting Using Causal Inference
作者: Chris Lam
发布机构与时间: 美国Epistamai公司,2024年11月15日,发表于“Workshop on Explainable AI in Finance (XAIFIN2024)”
报告页数: 7页
主题领域: 利用因果推断方法消除信用评分中使用替代数据的偏差,防范算法歧视,提升信贷的公平性与准确性。
核心论点与主旨:
本文提出了一种基于因果推断(Causal Inference)的机器学习去偏算法,旨在清除替代数据(Alternative Data)在信贷评分模型中的非法代理效应(Proxy Bias),进而实现兼顾准确性和公平性的信用评估。这有助于信贷机构更好地利用非传统数据(如地理、教育等),扩大对历史上受限群体的信贷覆盖,避免并矫正因采纳替代数据带来的法律风险如种族或性别歧视。论文通过理论架构建模、算法设计及公开数据测试,展示其方法的有效性和稳健的无歧视保障。[page::0,1,2,3,4]

---

2. 逐节深度解读



2.1 引言与背景(第0页)



报告开篇指出传统信用评分主要依赖个人信用记录,如还款历史、信用额度使用等,但存在“薄账户”或“无信用记录”群体无法被准确评估的问题。替代数据(如电商交易、支付水电费历史等)被提出作为补充数据源,能帮助提高评分准确率、降低借款成本,扩大信贷可及性。作者举例了研究界发现的非金融替代数据(如匿名邮箱使用、买烟习惯、申请用词)可能与违约相关,但存在“非法代理”风险——即这些特征或成为种族、性别等保护属性的隐蔽代理,导致算法歧视和法规风险。

传统信贷行业为避免歧视,采取“公平通过无知”(Fairness through Unawareness),即模型训练时不包括保护属性,但因无法阻断替代数据中代理信号,效果不足。作者提出采用因果贝叶斯网络(CBN)建立因果公平模型,这需要领域专业知识,但能提供更理论化的解决方案。[page::0]

2.2 构建公平的因果模型(第1页)



本节阐述基本因果图模型,描述信贷评分中的关键变量及其因果关系:
  • 保护因素 \(A\)(如种族、性别,可能不可观测,需用统计方法如BISG估算)

- 信用中介变量 \(W\)(借款人真实信用度,潜在变量,间接可观测)
  • 传统数据 \(XW\),作为 \(W\) 的测量指标,用来辅助决策 \(D\)(如是否批准贷款)

- 最终事件 \(Y\)(借款是否违约,观察到的结果)

核心假设是\(Y\) 与 \(A\) 条件独立于 \(W\),即 \(W\) 完全解释了保护属性对违约的影响,中介变量是关键法律合规因素。传统信用数据\(X
W\)并不代理保护属性,符合“无知公平”,因其只测量真实信用,且\(A\)对\(D\)无直接影响。机器学习模型被视作\(XW\)到\(D\)的映射,是“世界模型”的代理,位于因果层次的第一层(关联),现实状况处于第二及第三层(干预和反事实)。[page::1]

2.3 法律定义的不公正歧视(第2页)



基于美国法规,区分了两类歧视:
  • 异色待遇(Disparate Treatment),即明显歧视,模型直接使用保护属性\(A\)影响决策\(D\)(图4红色路径表示),这是直接违法的。
  • 差别影响(Disparate Impact),即间接歧视,模型名义上不使用\(A\),但由于使用的特征(尤其是传统数据\(XW\))中存在历史或系统性偏见,导致对某群体不利(图5展示\(A\)对\(W\)、\(XW\)、\(D\)、\(Y\)的连锁负向作用)。因而,“无知公平”策略无法防止差别影响。


解决差别影响需证明模型的“商业必要性”,并且无更少歧视的替代方法。替代数据引入能够提升模型准确性(满足商业必要性),同时捕捉经济劣势群体的潜在信用信号,有望降低歧视强度,帮助满足差别影响的合规要求。[page::2]

2.4 将替代数据引入因果模型(第2-3页)



替代数据中存在两种情况:
  • 人口统计变量 \(Z\),例如邮编、教育水平,既与信用中介\(W\)存在因果联系(\(Z \to W\),合法路径),又通过保护属性\(A\)存在非法的代理路径(\(Z \leftarrow A \to W\))。此类变量会引入偏差。
  • 代理变量 \(P\),完全无因果关系,只是通过\(A\)与\(W\)间接相关,是非法路径。


引入\(X
Z\)(人口统计替代数据)与\(XW\)共同作为模型特征时,未经控制会激活非法代理路径,导致显性歧视(图8红色路径所示);而传统无知公平只控制不使用\(A\),无法阻断此路径。

解决方案(图9所示)为:训练阶段仍使用保护属性\(A\)参与建模,但推断阶段固定\(A\)为某默认值(如“白人”)。这在因果层面即做了\(do(A = a')\)干预,阻断了非法代理路径,从而消除代理歧视。此操作保证了统一对待所有贷款申请者,满足无异色待遇的法定义务。

此外,这一方法允许利用替代数据提升模型准确度,扩大对经济弱势群体的信贷覆盖,避免了传统无知方法造成的差别影响,提供了法律上公正可控的信用评估方式。[page::2,3]

2.5 利用因果推断去偏算法设计(第3-4页)



基于上述因果结构,本文提出结合Pearl的因果推断工具(如do-操作)进行多步骤的数据科学过程:
  • 特征选择:以因果关系为基础,选取与信用中介\(W\)有直接因果路径的特征;避免使用无因果关系,只是代理保护属性的变量(如姓名、发型等非因果变量需剔除)。
  • 数据准备:进行重叠性测试,确保特征值在保护属性各组中都有分布;如出现“积极性违背”(例如HBCU教育只出现在黑人群体中),需剔除相关值,以避免模型无法区分因果效应与代理效应。
  • 训练:控制保护属性\(A\),即在模型训练中包含\(A\)以封闭非法代理路径,实现对替代数据偏差的矫正。
  • 推断:利用因果干预\(do(A=a')\)替换保护属性真实值,配合实际替代数据值,进行公平公平测试,阻断非法代理信号。
  • 评估:借助反事实分析比较传统仅用\(XW\)模型与集成替代数据的去偏模型,确保后者在各保护阶层均减少歧视。


该框架属于“基于模型”的监督学习,区别于当前主流业界“无模型”的黑箱收敛方法,为公平机器学习提供了系统化的理论基础和方法工具。[page::3,4]

2.6 算法测试与实证结果(第4页)



作者在公开的国家抵押贷款调查(NSMO)数据集上测试所提去偏算法。该数据包含保护属性(种族)和违约结果,数据集经过预处理,分为三种模型:
  • Awareness模型:包含种族特征,准确率最高,但存在异色待遇歧视。

- Unawareness模型:去除种族及强相关替代变量,模拟当前行业无知公平策略,准确率明显下降。
  • Counterfactual模型:训练时包含种族,推断时统一干预为“白人”,保证公平且提升准确率,介于前两者之间。


采用LightGBM工具,采用80/20训练测试分割和5折交叉验证,指标使用ROC/AUC。实验进行了30次不同随机种子的重复,保证统计学显著。

实验结果显示,尽管 Awareness模型准确率最高,Unawareness模型准确率显著降低,但Counterfactual模型成功恢复了绝大部分准确率且实现了公平性。误差主要来自误将黑人样本视作白人带来的信息损失,但可被算法利用数据解偏带来的整体效用提升所抵消。[page::4]

---

3. 图表深度解读



图1(第1页)



描述: 展示了机器学习黑盒模型与数据、保护属性、决策及结果的关系框架,保护属性\(A\)、输入数据\(X\)进入模型,产出决策\(D\),进而影响事件结果\(Y\)。

解读: 图示简洁明了地说明了保护属性\(A\)在模型中的作用路径及其潜在干预点,为后续构建因果模型奠定基础。

联系文本: 支持报告对 supervised ML的抽象定义,为转换为CBN提供理论基础。

---

图2 & 图3(第1页)



描述: 图2为简单三节点CBN,节点为 \(A\to W\to Y\),只考虑保护属性、中介变量和结果;图3则增加传统数据 \(XW\)与决策\(D\)变量,展现了现实的信用评分过程。

解读: 图3体现传统数据用于测量信用中介变量,保证\(X
W\)对\(A\)无直接代理性,体现“公平通过无知”中保护属性不影响决策的原则。

联系文本: 为理解传统信贷评分的公平模型提供结构图,支持无意识公平的因果合理性分析。

---

图4 & 图5(第2页)



描述: 图4通过红色路径展示异色待遇,即\(A\)直接影响决策\(D\)导致明显歧视。图5展示差别影响,\(A\)间接通过数据偏差影响\(D\),导致隐性歧视。

解读: 两图清晰区分法律定义的两种不同歧视机制,便于理解算法设计防范目标。

---

图6 & 图7(第2页)



描述: 图6增加人口统计变量\(Z\),同时有合法路径\(Z\to W\)和非法代理路径\(Z \leftarrow A \to W\)。图7展示代理变量\(P\),通过非法路径但无合法因果关联。

解读: 明确区分合法、非法因果路径,指导特征选择,避免非法代理变量对模型造成偏见。

---

图8 & 图9(第3页)



描述: 图8展示了替代数据\(X_Z\)引入后模型中激活的非法代理路径,导致显性歧视。图9则引入了固定默认保护属性\(A=a'\)的干预,阻断该路径实现去偏。

解读: 此处是理论模型的突破口,算法设计的因果干预正是基于此闭合非法代理路径,符合法律合规要求并提升准确性。

---

图10(第4页)



描述: ROC/AUC曲线对比三模型整体、白人和黑人群体的性能。警示性地显示去偏模型在准确率上几乎接近包含种族的Awareness模型,远优于无知公平(Unawareness)模型。

解读: 图表证明了因果去偏方法能在公平与准确间取得优异平衡,且对黑人与白人群体均表现改善,体现了算法的有效性与公平性。[page::1,2,3,4]

---

4. 估值分析



本文非金融资产估值报告,不包含典型的财务估值方法。但报告的“估值”可理解为针对算法性能和公平性的评价,即准确率(ROC/AUC)与公平性指标。

使用的评估方法:
  • 模型准确度测评: 采用ROC/AUC,评估分类器区分违约与非违约能力。

- 公平性评估: 通过保护属性(种族)分组的比较,和采用因果干预的对照试验,判断歧视消减效果。

基于前述,报告中区分三种模型(Awareness, Unawareness, Counterfactual),Counterfactual模型拥有几乎与包含保护属性的模型相当的准确率,同时通过因果干预消除了非法代理,兼顾公平与准确。

算法训练和验证采用80/20拆分加5折交叉验证,保证统计的稳健性和泛化能力。通过30个随机种子重复实验增加信度。[page::4]

---

5. 风险因素评估



报告重点警示以下风险点:
  • 法规限制风险: 当前美国公平贷款相关法规(ECOA Regulation B)禁止在信贷决策中使用保护属性,限制了算法中直接利用\(A\)的做法,可能使此去偏算法暂时无法被广泛商业采纳。

- 数据偏差风险: 不满足因果模型中的“重叠性”假设(positivity violation)时,可能导致代理路径无法完全切断,需要剔除受影响特征或取值。
  • 模型泛化风险: 去偏算法依赖高质量、具有异质性的训练数据,若数据有限或白人样本不足,无法正确分辨代理路径,可能降低性能或公平效应。

- 理论与实践差异: 建立精确因果模型需要丰富领域知识和假设,存在模型误判风险。
  • 操作复杂度和计算成本: 训练与推断中执行因果干预增加系统复杂度,存在实际工程障碍。


报告虽未详细展现具体缓解策略,但提示了通过持续数据清洗(如正则性检查与值剔除)、开源代码验证复现和政策讨论推动法律改进,是未来解决方案方向。[page::4,5]

---

6. 批判性视角与细微差别


  • 报告作者采用的因果干预方法创新且理论扎实,但对当前监管环境的适配性持谨慎态度,认为法规尚未成熟支持这一路径,存在现实转型周期长的隐忧。

- 研究局限于公开的NSMO数据模拟,虽有代表性但与真实信贷数据存在差别,可能影响结果的外推。
  • 使用固定值\(A=a'\)反事实干预假设所有申请人都被当作同一“默认”群组(如白人)对待,可能忽略了申请人真实社会背景的差异,存在理论上的一定“失真”风险,尤其当数据中存在某些群体极端欠缺时。

- 文章假设控制保护属性即可切断代理路径,然而现实中可能存在多重混杂因子、多维交互效应,此简化假设可能难以覆盖更多复杂情形。
  • 并未深入探讨不同替代数据类别(金融与非金融、量化与定性等)在因果路径中的差异潜能,后续工作有待细化。


整体报告结构清晰,逻辑紧密,将理论模型紧密结合政策和实践,兼具学理性和实操导向,体现了跨学科的深度融合。[page::0-5]

---

7. 结论性综合



本报告详细阐述并验证了一种基于因果贝叶斯网络和Pearl因果推断理论的去偏算法,专注于解决替代数据在信用评分中的代理偏差与非法歧视问题。核心发现如下:
  • 以因果推断建模监督学习过程,明确区分合法因果路径与非法代理路径,通过训练阶段包含保护属性\(A\),推断阶段使用\(do(A=a')\)操作干预,理论上阻断替代数据中对保护属性的非法代理效应,防止异色待遇。

- 替代数据的应用既可提升模型准确度,也有助于满足法律的“商业必要性”标准,减少差别影响风险,促进信贷公平,特别是对信用不可见和薄记录群体的支持。
  • 实证验证基于公开NSMO数据,构建了三种模型实验,发现因果去偏模型在准确率损失极小的情况下有效提升了对黑人群体的信用识别公平性,远超传统无知公平策略。

- 法规障碍仍是现实挑战,现行公平信贷法规禁止使用保护属性参与决策,限制了算法去偏的实践应用,作者呼吁监管改革以适应基于因果推断的技术发展,推动更公平包容的金融体系。
  • 方法优势在于提供了比现行业内多用统计相关性调整更坚实的理论基础和算法框架,新颖地赋能了信用评估的去偏设计,实现公平与性能的最优平衡。


各关键图表(尤其图3、图8-10)系统而直观地呈现了模型架构、代理路径与干预措施,以及在不同模型下的性能对比,贯彻了论点与结论,强化了报告的科学性与可信度。

综上,该报告为金融信贷领域采用因果推断消除算法歧视提供了系统理论框架、可操作算法及初步实证支撑,具备较高的学术和实践价值,值得业界和监管部门深入关注和探索应用。[page::0-5]

---

总体评价



本报告将复杂的因果推断理论高效转化为信贷领域的公平算法,为传统“无知公平”和简单统计去偏方法提供了突破性的技术补充,构建了可测量、可控、在理论上具有法律防护意识的信贷评分体系。实证结果表明其在保护少数族群公平性方面效果突出,同时保持了较强的准确率表现。尽管存在政策和数据应用层面待解的挑战,报告提出的方法及理念为未来智能金融产品的公平设计提供了重要方向与实践路径。

---

> 备注:所有结论均在报告原文明确或隐含体现,文中各结论均附带相应引用页码标识,严谨保障追溯性与参考性。

报告