`

Predicting and Explaining Customer Data Sharing in the Open Banking

创建于 更新于

摘要

本论文提出了一个用于预测客户在开放银行环境下数据共享倾向的框架,结合ADASYN和NEARMISS算法处理数据不平衡,采用XGBoost模型达成超91%的准确率,并通过SHAP和CART方法解释模型决策,发现移动端交互和信贷特征是影响数据共享行为的关键因素,为金融机构制定策略提供实证依据 [page::0][page::1][page::5][page::7][page::8]

速读内容


高准确率的客户数据共享预测框架 [page::7]


| 模型类型 | PR-AUC | 召回率 | 特异度 | 准确度 |
|------------|--------------|-------------|-------------|-------------|
| 出流模型 | 0.91537 (±0.00817) | 0.88183 (±0.02745) | 0.80929 (±0.00270) | 0.80957 (±0.00269) |
| 入流模型 | 0.91398 (±0.01895) | 0.86250 (±0.05676) | 0.81789 (±0.00403) | 0.81793 (±0.00403) |
  • 采用100折交叉验证确保结果稳定性。

- 两个模型均表现出良好的预测性能,准确识别数据共享意愿客户 [page::7]

数据不平衡处理及特征工程方法 [page::2][page::6]

  • 采用ADASYN进行少数类过采样,增强模型训练数据边界识别能力。

- 结合NEARMISS去除多数类冗余样本,优化样本质量。
  • 融入基于RFM框架的行为和信贷特征工程,提高预测能力。

- 通过Kolmogorov-Smirnov检验确保数据分布无显著偏差 [page::2][page::6]

机器学习模型选择及超参数优化 [page::3][page::6]

  • 应用基于CART的XGBoost模型,使用贝叶斯优化调节关键超参数。

- 评价指标包含准确率、召回率、特异度和PR-AUC,全面衡量模型泛化能力 [page::3][page::6]

SHAP解释方法揭示关键影响因子 [page::7][page::8]

  • 移动渠道互动次数和交易数量为最具影响力的特征,显示移动端用户活跃度是主要驱动力。

- 信贷相关特征,特别是全国家庭信用卡使用额度与逾期信用情况,对数据共享行为有显著影响。
  • 出流模型中"无数字活跃度"减低出流可能性,移动端使用频繁则易促使客户出流。

- 入流模型展现更复杂分支,表明频繁使用移动交易的客户更可能导入数据 [page::7][page::8]

因果关系与业务洞见 [page::7][page::8]

  • 客户缺乏信用额度时,倾向于通过出流行为寻求其他机构信贷,潜在风险敞口。

- 拥有硕士学位客户更少需要额外信贷,表明教育程度影响金融行为。
  • 框架有助于银行识别和激励数据共享客户,提升数字化竞争力与客户忠诚度 [page::7][page::8]


可视化框架流程图展示 [page::5]


  • 明确三阶段方法:数据预处理(特征工程+样本平衡)、模型训练与测试、解释性模型分析。

- 结合SHAP和CART额外提升模型解释力,促进透明与公平 [page::5]

深度阅读

金融研究报告深度解析 —— 《Predicting and Explaining Customer Data Sharing in the Open Banking》



---

1. 元数据与概览



报告标题: Predicting and Explaining Customer Data Sharing in the Open Banking
作者及机构:
  • João B. G. de Brito 等多人,主要来自巴西南里约格兰德联邦大学(Federal University of Rio Grande do Sul)、比利时根特大学及巴西基金会Getúlio Vargas

发布时间与背景: 未见明确日期,但引用文献时间截止2024年初。
主题: 本报告聚焦于开放银行(Open Banking,OB)环境中客户数据共享行为的预测与解释,特别基于机器学习模型,以解析客户为何愿意通过开放银行共享个人金融数据。研究背景涵盖巴西开放银行的实际数据环境,旨在为金融机构提供基于数据的竞争策略支持。

核心论点:
随着开放银行的发展,客户的数据共享变得尤为重要且复杂。金融机构需在促进数据“流入”(inflow)以提升服务质量与风险管理,同时又要限制数据“流出”(outflow)以防市场份额流失之间找到平衡。作者提出了一个三阶段框架,结合数据预处理、XGBoost机器学习模型及基于SHAP(Shapley Additive Explanations)的解释模型分析(EMA),有效预测客户数据共享倾向并解读关键影响因素,揭示移动渠道互动和信用卡等特征的重要作用,模型准确率均超过91%。该框架为金融机构在开放银行环境下的市场竞争和客户管理提供了科学依据。[page::0,1,5,7,8]

---

2. 报告章节深度解读



2.1 引言与背景(1 Introduction)


  • 关键内容:

开放银行源于客户对其数据所有权的理念,允许客户自主授权其它金融机构访问其数据,从欧盟PSD2指令发端,已扩展全球。其核心在于打破传统“封闭”银行数据,推动竞争和创新,但对传统银行构成客户流失风险,要求主动管理数据流向。强调开放银行通过交易数据交换降低客户更换门槛,增强市场活力,同时金融机构需要精准识别希望共享数据的客户以及潜在的“流出”客户。[page::0,1]
  • 逻辑基础与假设:

假设客户数据共享意愿存在差异,受数字渠道使用、信用需求与风险偏好影响,金融机构可依此精准营销和风险管控。
  • 洞察:

市场竞争核心将从传统存贷款转向数据资源和客户行为管理,开放银行环境重塑市场结构。

---

2.2 文献综述(2 Literature Review)


  • 2.2.1 开放银行基础

强调数据种类多样(余额、交易、贷款、信用卡等),不同机构数据格式不统一,开放银行通过统一API规范及监管,安全合规地促成客户数据共享。数据流入使银行更精准评估风险及个性化产品,数据流出则带来客户流失风险。[page::1,2]
  • 2.2.2 预测模型与数据预处理

识别客户数据共享行为的预测研究较少,但已有研究表明,开放银行数据有助于提升信用评分准确性。报告采用针对罕见类别数据的处理方式(如ADASYN过采样补充少数类,NEARMISS精简多数类),应对共享客户人数少带来的分类不平衡问题。[page::2,3,6]
  • 2.2.3 机器学习模型和超参数优化

应用XGBoost决策树模型,通过贝叶斯优化自动调整超参数,提升模型性能。强调CART(二叉树)模型为模型结构基础,支持分类与回归功能,具有较强的解释性和容错性。[page::3,6]
  • 2.2.4 模型解释(EMA)方法介绍

选用SHAP作为解释方法,结合博弈论Shapley值,量化单个特征对模型预测的贡献,提倡模型透明性,避免“黑盒”模型弊病。结合LIME等其他方法综合提升模型决策可解释性。将SHAP值作为输入,构建CART模型进一步揭示决策规则,辅助业务理解和策略制定。[page::4,5]

---

2.3 框架设计与方法(3 Proposed Method)


  • 三阶段框架设计:

1. 数据预处理:包含特征工程(基于RFM,构建行为与信用指标)、过采样(ADASYN)与欠采样(NEARMISS)保证数据平衡,并通过Kolmogorov-Smirnov检验确认分布稳定性。
2. 模型训练与测试:利用XGBoost模型,采用贝叶斯超参数调优,100折交叉验证评估效果,指标包括准确率、召回率、PR-AUC、特异性等。
3. 解释模型分析:基于SHAP值构建CART树,直观把握关键特征的影响路径及阈值,增强结果透明度。[page::5,6]
  • 过程图(图1)详细描述流程从原始数据至解释结果的闭环,体现方法的严谨与透明。


---

2.4 数据与实证背景(4 Data and Empirical Context)


  • 研究对象与数据描述:

基于巴西一大型银行及国家金融系统数据,涵盖约320万客户与2亿多条交易,时间跨度2020-2022年。聚焦已完成数据共享授权的客户分两类:数据流入者和流出者。强调极端的类不平衡(流入0.093%,流出0.38%),突显建模挑战与技术必要性。[page::6]
  • 背景意义:

巴西中央银行推广开放金融(Open Finance),覆盖范围广泛,包括传统和非传统金融服务,数据维度丰富,适合深度行为分析。

---

2.5 结果与讨论(5 Results and Discussion)



2.5.1 预测性能(5.1 Predictive performance)


  • 两模型概述与表现:

- 数据流出模型(预测客户首次同意数据向外共享),PR-AUC达91.54%,召回率约88.2%,准确率及特异性均超80%,表现稳定。
- 数据流入模型(预测客户导入他行数据),PR-AUC91.4%,召回率稍低为86.25%,准确率81.79%,表现同样强劲。
  • 指标意义:

高PR-AUC表示模型在处理不平衡数据时表现优异,召回率高说明能较全面捕捉实际共享客户,特异性高保证少误判未共享用户。
  • 方法优势:

100折交叉验证降低偶然波动风险,提升结果可靠性。[page::7]

2.5.2 特征重要性及解释(5.2 Explanatory Model Analysis)


  • SHAP值排名:

- 流出模型特征较分散,约80%重要度由33个特征组成,“移动端互动次数”占16.72%重要度,“移动端交易/购买数”次之(8.07%),其次是数字渠道互动(6.55%)。
- 流入模型重心亦在移动端,前两大特征“移动端交易数”和“移动端互动数”分别占11.14%和10.68%,显示移动渠道活跃度是数据共享的关键驱动力。
  • CART决策树洞察:

- 流出模型: “数字成熟度-无数字活动”阈值为SHAP < 0.069明显区分非流出客户,说明不活跃数字用户较少主动共享数据;信用额度及全国银行系统信用卡额度为负向SHAP,说明信用需求和额度不足或倾向外借的客户更可能数据流出,反映客户信贷多头需求下的数据外流风险。
- 流入模型: 树结构更丰富,反映多变量作用。“移动端交易/互动次数”对流入呈正相关;逾期信用情况提示客户积极寻求额外信用。教育水平如硕士学位客户虽移动端活跃,但信用需求低,流入意愿较小,显示用户特质多维影响。[page::7,8]

---

3. 图表深度解读



图1 - 框架流程图(Page 5)


  • 描述内容:

图示展示从原始客户交易与人口统计数据采集开始,经特征工程、数据不平衡处理、XGBoost模型训练与测试,到基于SHAP值的解释模型构建(CART)过程。
  • 解读趋势:

框架整体呈现连续迭代闭环,强调解释在模型构建后的关键作用,提升模型的业务适用性和可读性。
  • 底层假设与设计亮点:

整合过采样和欠采样技术保障训练平衡,后续的解释模型能够深入到单个特征对客户行为的正负贡献,极具实操指导意义。
Framework Diagram

表1 - 预测模型性能指标(Page 7)



| 模型 | PR-AUC | 召回率 | 特异性 | 准确率 |
|---------------|---------------|---------------|---------------|---------------|
| Outflow model | 0.91537 (0.008)| 0.88183 (0.027)| 0.80929 (0.003)| 0.80957 (0.003)|
| Inflow model | 0.91398 (0.019)| 0.86250 (0.057)| 0.81789 (0.004)| 0.81793 (0.004)|
  • 解读:

两模型整体表现非常接近且优于常见基线。在类极不平衡背景下,PR-AUC超过0.91极具竞争力,召回率和特异性均保持较高,表明模型在捕获少数类客户和控制误判上均较均衡。标准差值小,说明模型稳定性良好。

---

4. 估值与方法论剖析



本报告不涉及传统金融证券估值模型,而是提出了用于客户行为预测的机器学习估计框架,重点在于模型训练及解释能力。其主要方法应用如下:
  • 数据平衡处理: ADASYN(Adaptive Synthetic Sampling)通过识别复杂边界区域生成合成样本,增强少数类表现;NEARMISS通过剔除多数类噪声样本提高训练效率与准确度。

- 模型本体: XGBoost,以迭代优化的CART为基底,结合梯度提升,累积纠正误差。采用贝叶斯优化驯服众多超参数保证模型性能最优化。
  • 解释分析: 通过SHAP将复杂模型输出拆解为各特征贡献,配合CART决策树提升解释的结构化和直观性,这对金融决策者理解和信任算法尤为重要。


---

5. 风险因素评估



虽然报告主要研发与预测模型,但通过特征解释和模型结果部分隐含了如下风险因素:
  • 数据共享风险: 客户对数据安全和隐私的忧虑可能影响实际共享行为,数据流动可能导致竞争对手获得客户信息,造成市场份额流失。

- 模型偏差与误判: 不平衡数据可能引发模型过拟合或低泛化能力,报告通过过采样和欠采样处理,并多次交叉验证试图缓解这一风险。
  • 监管合规风险: 开放银行依赖监管制定的API等安全标准,政策变化可能影响共享意愿或技术实现。

- 解释性限制: SHAP虽提供了优秀的解释框架,但依旧需要结合业务背景和专家判断,避免片面解读。

报告未显式提出缓解措施,但从方法设计和多阶段验证体现了在技术手段上的积极应对。[page::1,2,5,7]

---

6. 批判性视角与注意点


  • 优势: 报告体系完善,基于超大规模真实客户数据,技术应用符合当前最前沿的机器学习和解释性标准,结论具备较高可信度和实用性。

- 潜在局限:
- 样本极度不平衡,生成合成样本可能引发部分非真实模式风险,未来需进一步验证模型在实际新客户群中的表现。
- 解释性虽增强,但部分特征(如“数字成熟度”定义的具体标准)未详述,业务理解需结合更深层客户调研。
- 当前讨论主要基于巴西市场,跨国或不同金融生态适用性尚待检验。
  • 细节提醒:

- SHAP值重要度虽平衡,但“移动端互动”一类特征集中,限定了对技术熟悉度高客户的偏好,可能影响对低渗透市场的识别。
- 报告对“硕士学历客户”行为的解读属于细化分析,但未充分量化学历与信用需求的交互效应,值得未来补充。[page::7,8]

---

7. 结论性综合



本报告系统地提出并验证了一个针对开放银行客户数据共享行为的预测与解释框架,具体贡献包括:
  • 技术先进性: 利用超大样本数据,结合创新的过采样(ADASYN)与欠采样(NEARMISS)方法解决类别极度不平衡问题,基于XGBoost模型实现精准预测;

- 解释能力: 通过结合SHAP和CART决策树,透明揭示关键驱动客户数据共享的因素,突出了移动渠道交互频次与信用需求的核心作用;
  • 业务洞察: 移动端数字化参与度成为客户数据共享的强预测因子,高信用需求客户倾向于数据流出寻求别处贷款,表明客户行为与银行市场份额紧密相关;

- 绩效表现: 两个模型均实现91%以上的PR-AUC,召回率和特异性均优于80%,表明模型在真实业务环境具备可靠应用价值;
  • 应用前景: 框架适用于金融机构提升客户精准营销、风险识别与市场竞争力,有助于推动开放银行下的客户数据共享管理及金融创新。


综合来看,作者传递了一个明确且科学的观点:在开放银行生态下,数据共享行为不仅可以通过先进机器学习精准预测,而且通过解释模型深入理解客户动因,金融机构应积极转向数据驱动的客户管理策略,以实现竞争优势和服务提升。[page::0-8]

---

总结: 本报告为开放银行领域的客户行为预测与解释开辟了新的研究视角和技术路径,结合机器学习最新方法和解释框架,实现在庞大且不平衡数据中对罕见行为的高效识别与分析,具有较强的理论创新性和实践指导意义。未来拓展跨市场、多时点动态行为分析尤为重要。

报告