`

Synthetic Data Applications in Finance

创建于 更新于

摘要

本报告系统性介绍了合成数据在金融行业的多样应用,涵盖了表格数据、事件序列、时间序列以及非结构化数据,详述了生成技术、质量衡量指标和隐私保障机制。通过量化实验和案例分析,展示了合成数据在反欺诈、客户转化、市场模拟和OCR等方面的实用性和隐私风险防护,为金融领域合成数据的研发和应用提供了全面视角与未来方向指引 [page::0][page::1][page::11][page::25][page::27][page::38][page::45]。

速读内容

  • 合成数据定义及金融领域应用场景 [page::0][page::1]:

- 合成数据分为两类:对真实数据的转换和基于模拟过程生成。
- 主要应用于数据共享隐私保护、数据增强、反事实场景模拟及模型稳健性测试。
- 适用多种数据模态:表格、事件序列、时间序列、图像、文档等。

  • 关键生成方法及评估指标 [page::2][page::5]:

- 生成技术包括传统SMOTE、GANs、扩散模型、能量模型、贝叶斯网络和基于领域知识的模拟器。
- 多样且分层的隐私保护策略,涵盖了从简单匿名化到复杂的仿真级别。
- 质量评估分为保真度(Fidelity)、效用(Utility)和隐私(Privacy)三大类指标。
  • 隐私防护层级体系 [page::10-16]:

- 隐私分为6个层级:
1. 仅掩码PII,弱隐私保护,效用完全保留。
2. 掩码PII且添加噪音,提升隐私,部分效用损失。
3. 生成式建模,创建新数据但存在反向攻击风险。
4. 生成后附加隐私攻击测试,确保抗攻击性。
5. 基于校准模拟,不依赖真实数据训练,隐私强但效用视任务而定。
6. 非校准模拟,隐私最强,主要用于测试与场景模拟。



  • 表格数据的合成与应用——以信用卡欺诈检测为例 [page::17][page::18][page::20][page::23]:

- 采用神经网络模型(CTGAN、TVAE、CopulaGAN等)及优化框架SC-GOAT提升合成数据质量。
- 合成数据用于训练欺诈检测器,XGBoost表现优越,SC-GOAT综合性能最优。



  • 事件序列数据生成及商业银行客户旅程增强应用 [page::25][page::27]:

- 利用自动规划与多类型Hawkes过程生成合成事件序列数据。
- 合成客户旅程作为数据增强,有效提升营销归因模型性能和转化率预测准确度。

  • 时间序列合成及市场仿真 [page::27-37]:

- 时间序列合成方法包括参数化模型(如OU过程)、非参数深度模型(GANs、VAEs和扩散模型)及多智能体模型。
- 引入隐式神经表示(INR)、HyperTime架构提升时序生成的灵活性和精度。
- 通过ABIDES多智能体仿真,高保真重现历史市场行情,用于测试交易策略及健壮性评估。



  • 非结构化数据合成——手写体生成与OCR性能提升 [page::38][page::41]:

- 结合内容与风格维度进行合成,解决手写数据标注噪声和缺失问题。
- 基于字体和图像变换的合成方法实现对OCR模型的显著性能提升,内容差异场景提升最高达40.68%。



  • 财务文件与图表生成 [page::43][page::44]:

- 利用贝叶斯网络生成带自动标签的财务文档布局。
- 基于图像生成模型产生企业所有权及管理结构图,结合自动问答支持复杂视觉推理。

  • 报告结论 [page::45]:

- 合成数据技术在金融多个场景有效,面对隐私、安全和公平性挑战不断演进。
- 未来重点关注评估标准、多模态合成、生成与真实数据鉴别、加水印等技术及实际落地问题。

深度阅读

合成数据在金融领域的应用:深度解析报告



---

1. 元数据与概览



报告标题: Synthetic Data Applications in Finance
作者: Vamsi K. Potluru 等(J.P. Morgan AI Research团队)
发布时间: 报告中未明示具体日期,但引用文献截至2023年,且文本提及GPT-4等2023年的技术,推测为2023-2024年间
主题: 金融领域中合成数据的生成技术、应用场景、隐私问题、质量评估指标及未来挑战等

核心论点与主旨:
该报告系统总结了合成数据技术在金融行业的多模态应用,涵盖表格数据、时间序列、事件序列及非结构化数据(图片、文本)等多类型数据的生成及实际用例。重点强调合成数据在金融领域福利(隐私保护、合规性、公平性、数据共享限制下的“解放”),以及如何帮助金融机构在保证数据安全的前提下提速AI模型开发并提升模型鲁棒性。此外,报告对生成技术与评估指标进行了系统归纳,提出六级隐私保护框架,为合成数据在金融合规环境下的应用提供指导。

---

2. 逐节深度解读



2.1 引言与应用场景划分


  • 合成数据定义: 人工生成,不是直接源于真实事件数据。生成方式包括(1)基于真实数据转换,(2)基于过程模拟。

- 金融合成数据应用类别:
- 数据解放(Data Liberation): 通过合成数据替代真实数据,打破银行内部与外部数据共享的隐私与合规瓶颈,加速模型开发。
- 数据增强(Augmentation): 通过增加多样样本,提升下游模型的泛化与公平性。
- 反事实与测试(Counterfactual Scenarios and Testing): 用合成数据模拟罕见或未观测场景,提高模型面对分布偏移的鲁棒性。

[page::0,1]

---

2.2 多模态数据与主要模型



图表Exhibit 1(多模态及对应模型、应用)示例:

| 模态 | 代表模型 | 典型应用 |
|-----------|-----------------------|--------------------|
| Tabular | CTGAN | 欺诈检测、反洗钱 |
| 事件序列 | Hawkes,自动规划 | 多触点归因、客户旅程 |
| 时间序列 | TimeGAN | 市场反事实模拟 |
| 离散时间序列 | 贝叶斯网络 | 资产配置 |
| 图像 | ScrabbleGAN | 支票OCR |
| 文档 | 贝叶斯网络 | 布局生成 |

应用手册式划分非常清晰,为后续章节具体问题展开提供了脉络。

[page::1]

---

2.3 合成数据生成技术


  • 传统方法及进展:

- SMOTE(采样类插值)适用于类别不平衡
- 深度学习模型如GAN、扩散模型、能量模型广泛应用于多种数据类型
- 模拟器:基于规则、专家知识及数据驱动的混合建模,尤其适合时间序列和事件序列
  • 模型驱动模拟(Model-Based Simulation)细节:

- 明确体现数据生成机制,适合模拟罕见事件,重现性好
- 利用马尔可夫模型、强化学习中的MDP/POMDP进行数据生成和策略验证
- 多主体模拟(如ABIDES)可模拟市场内不同类型交易员的交互,为策略测试、行为研究提供环境
  • 数据质量评估三大类指标:

- 保真度(Fidelity): 包含KS检验、Chi-square、MMD、Wasserstein距离等
- 效用(Utility): 以下游任务性能为准,如TSTR测试(训练合成数据,测试真实数据)
- 隐私(Privacy): 抵御各类攻击,包括成员推断攻击、属性推断、差分隐私指标等

[page::2,3,5]

---

2.4 合成数据Python库生态对比(Exhibit 3)


  • SynthCity:支持时间序列、生存分析,架构灵活。

- SDV(Synthetic Data Vault): 多类型数据支持,机器学习为核心,注重统计结构保持。
  • DataSynthesizer: 注重隐私保护,使用差分隐私。

- TGAN (TableGAN): GAN模型,专用于表格数据。
  • Faker: 测试用伪造数据,功能简单。

- Metadata to Data: 以元数据驱动数据合成,灵活度高。

库间在空间意识、匿名化、复杂数据支持和性能方面存在明显差异,选择需结合具体应用场景。

[page::6]

---

3. 隐私保护体系详解


  • 金融领域隐私风险:

- 合规法规(如FCRA,UDAAP)限制数据使用范围,不仅要求删除直接识别信息,还防止通过关联信息反识别
- 不当披露(模型、合成数据)可能带来诉讼、反垄断风险
- 合成数据虽能缓解,但若保护不足仍有隐私和竞争风险
  • 隐私攻击类型: (Exhibit 4)

- 成员推断攻击(MIA): 推断某个个体是否存在于训练数据
- 属性推断攻击: 利用部分已知信息推断敏感属性
- 属性统计推断攻击: 通过合成数据泄露整体数据特征
- 模型推断攻击: 推断模型训练信息或数据关联
  • 防御技术:

- 传统的PII遮蔽难防链路攻击
- 随机化与扰动提供可能的可证明隐私保护
- 差分隐私($\epsilon$,$\delta$-DP) 是当前主流理论保障,定义了相邻数据集输出相似性的概率界
  • 六级隐私保护框架(每级权衡隐私保障与数据效用):


| 级别 | 描述 | 保护强度 | 数据形态与风险特点 | 代表手段或方法 |
|----|-----|------|-----------------|----------|
| Level 1 | 仅遮蔽PII(如掩码、替换) | 弱 | 无修改非敏感字段,极易重构攻击 | 掩码、删除等 |
| Level 2 | 遮蔽PII + 加噪声 | 中低 | 噪声扰动降低攻击概率,但可能损害效用 | 随机“数据互换”、差分隐私技术 |
| Level 3 | 基于原始数据训练生成模型 | 中等 | 生成新样本,多样性好但可能过拟合原数据 | GAN、Copula等生成式模型 |
| Level 4 | Level 3 + 生成数据隐私测试 | 中高 | 生成样本需通过成员、属性等攻击测试 | 攻击算法测试、评分筛选 |
| Level 5 | 标定模拟,基于规则模拟器生成 | 高 | 不直接使用训练数据,仅对统计特性做标定 | 金融市场模拟器(如ABIDES) |
| Level 6 | 非标定、纯模拟生成 | 最高 | 不参考真实数据分布,最大隐私但效用受限 | 未校准模拟器,用于测试与假设验证 |

该分层框架为金融机构合成数据保护提供了指导方案和使用场景定位。

[page::7-16]

---

4. 表格型数据应用



4.1 生成技术综述


  • 主要模型:TVAE、CTGAN及CopulaGAN均为神经网络基方法,其中CTGAN特别针对表格数据类别极度不平衡问题设计条件生成。

- 统计法(如Gaussian Copula)通过建模多元分布的边际依赖关系实现合成数据采样。
  • 优化方法如SC-GOAT引入了监督信号和贝叶斯优化,针对下游任务表现调整生成数据,缓解纯相似度优化不足。


4.2 用例:信用卡欺诈检测


  • 数据来源于2013年欧洲信用卡交易,极端类别不平衡(0.172%为欺诈)。使用SMOTE等方法先平衡训练数据。

- 合成数据类别比例与原始数据差异显著,如CTGAN生成的欺诈类别远多于原始,反映生成数据分布偏移问题。
  • 下游任务评估(AUROC指标)显示基于神经网络合成数据,XGBoost表现尤为优异,SC-GOAT通过混合多模型生成进一步提升性能。

- 标准差和统计显著性检验表明调优后的模型显著优于未调优版本。

4.3 隐私保护


  • 差分隐私生成方法多基于扰动噪声(拉普拉斯机制)、边际统计拟合等。

- 深度学习生成的DP模型如DPGAN、DPCTGAN等缺乏可解释性,局限于金融应用。空间划分加扰动和扩散模型正在探索解释性与性能平衡。
  • 在信用卡欺诈用例中,存在隐私预算($\epsilon$)与合成数据效用之间的权衡,部分基于深度学习方法的效用损失较快。


4.4—4.5 公平性与鲁棒性


  • 合成数据偏差问题可能影响机器学习决策公平性,已有研究针对生成模型进行偏差检测和调优。

- 合成数据增强被证明能提升模型对抗攻击的鲁棒性,尤其能够扩充未观测样本类别,减少分布偏移影响。

[page::17-23]

---

5. 事件序列数据


  • 金融中的事件序列涵盖客户旅程、市场订单簿等,特点为非均匀采样和异步。

- 模型涵盖传统马尔可夫模型、深度神经网络、生成模型及时间点过程(尤其是Hawkes过程)。
  • 自动规划(AI规划)方法基于动作和状态模拟客户行为,适合合成客户交互数据(如洗钱、欺诈检测)[BV20]。

- 通过合成客户旅程数据增强,用于多触点归因(MTA)模型,提高客户转化预测准确率(AUC提升明显),且合成数据未改变广告渠道归因结构的合理性。

[page::24-27]

---

6. 时间序列数据


  • 合成时间序列支持市场压力测试、策略回测、异常事件模拟等关键金融流程。

- 生成方法分类:
- 参数模型(如SDE,OU过程)基于假设统计分布
- 非参数模型(GAN、VAE)直接估计数据分布
- Agent-based模型模拟交易主体交互,具备市场微观动态
  • 先进方法如隐式神经表示(INR)和HyperTime以连续函数方式编码时间序列,提升对不规则采样和缺失值的鲁棒性。

- 合成时间序列评估指标包括预测有效性(TSTR)和鉴别难度,体现数据效用与保真度。
  • 限制条件时序生成(硬约束、软约束)被新兴扩散模型和约束优化框架解决,支持用户定义统计及结构特征约束(图Exhibit 22示例各种约束生成效果)。

- 风格迁移方法(StyleTime)可将真实时间序列的统计特性(如波动聚集)迁移至合成样本,提高现实感和下游预测表现(见Exhibit 24)。
  • 多主体交易市场仿真系统ABIDES可生成与历史交易高度吻合的价格序列,并可用于生成带策略冲击的订单簿数据,测试策略价格影响(Exhibit 25-27)。

- 结合深度生成模型和多主体仿真,实现更灵活、可调的市场环境模仿。

[page::27-37]

---

7. 非结构化数据应用



7.1 手写体OCR数据合成


  • 挑战:标签与图像噪声、PII限制导致训练数据匮乏、性能下降

- 维度区分:内容(字符文本)与书写风格(字体、作者习惯)
  • 字体驱动合成增强方案:15种字体+变换(旋转、弹性变形、模糊、遮蔽等)合成多样数据

- 实验结果:在有限真实数据(7k, 21k)基础上,分别实现最高26.11%、18.92%的字符识别率提升
  • 内容缺口测试(训练集只包含词语,测试集为数字,且因隐私问题无法直接训练数字):合成数据介入后最高提高40.68%性能,表明合成数据有效缓解内容域转移造成的性能崩溃


7.2 文档合成


  • 布局合成: 深度生成模型和贝叶斯网络方法均可生成结构合理、带自动标注的金融文档布局(Exhibit 31)。

- 图示合成: 生成企业所有权图谱等复杂图形,以图像生成模型生成邻接矩阵,再应用样式,产生可用于问题回答的图型数据(Exhibit 32)。
  • 文本合成: 主流技术包括词替换、回译、摘要、同义句转换,结合大型语言模型(如AugGPT)进行条件文本生成。

- 反事实文本生成帮助模拟市场不同情绪场景,支持鲁棒模型训练;并可结合隐私保护生成无PII合成文本。

[page::38-45]

---

3. 图表深度解读


  • Exhibit 1(多模态应用):清晰划分了不同合成数据模型在金融具体任务中的适用范围,展示了合成数据技术的丰富性。

- 隐私等级Exhibits 5-10 分别展示了六级隐私保护方法的示意,通过示例比对了数据如何一步步从原始转化为隐私越强的合成数据,兼顾隐私保障和效用。
  • Exhibit 11:t-SNE图直观展现原始与合成数据在二维空间概率分布的重叠与差异,验证合成数据在统计特性上的保真度。

- Exhibit 14:XGBoost等模型针对不同合成数据表现的AUROC曲线,体现CTGAN等神经网络方法在欺诈检测上的效果优异。
  • Exhibit 16:ROC降级图展现了隐私预算变化对差分隐私生成算法合成数据下游效用的影响,对比了不同算法的鲁棒性。

- Exhibit 18:事件序列合成数据增量叠加下客户转化预测AUC提升图,佐证合成客户旅程在营销多触点归因场景的实用价值。
  • Exhibits 22、23:展示了基于约束的时间序列合成能力及性能指标,反映了该领域对合成数据定制需求的满足。

- Exhibit 25-27:ABIDES模拟市场生成与真实市场交易价格对比,及实验交易策略对价格影响的模拟,直观表现多主体合成市场模拟的高保真优势。
  • Exhibits 29-30:手写体OCR字体驱动合成数据带来的性能提升柱状图,清楚实证合成扩充的效用。

- Exhibits 31-32:合成金融文档与图形结构示例,体现合成数据对金融文档自动理解的推动作用。

图表覆盖了合成数据的隐私保护、合成质量评估、具体金融应用模型效果以及多模态合成样本视觉直观印象,实现了理论和实践的完整闭环。

---

4. 估值分析



报告未涉及传统意义上的企业估值或金融资产评价,而集中于合成数据技术自身的质量、隐私防护等级和下游效用评估方法:
  • 质量主要通过保真度(KS检验、MMD、水印斯坦距离)、效用(TSTR、下游任务AUC)衡量。

- 隐私防控基于差分隐私指标($\epsilon$-$\delta$DP)、攻击抵抗能力测试,设定六级隐私保护等级指导产品应用。
  • 多模型混合优化(SC-GOAT)提升效果,即通过贝叶斯优化等自动调节生成数据分布,使合成数据更适应具体任务需求。


这些评估框架实质上构成了合成数据资产级别的多维价值量化。

---

5. 风险因素评估


  • 数据泄露风险: 成员推断攻击、属性推断、属性统计推断均可对合成数据构成威胁,泄露个人数据或机构敏感统计特征。

- 模型风险: 合成数据驱动的模型可能继承原始数据的偏差,导致公平性和性能下降。
  • 隐私控制风险: 低等级隐私保护手段易遭受重构攻击,差分隐私保护往往带来效用下降,需要权衡。

- 合成数据滥用风险: 市场信息、客户资料等数据的合成错误展示或仿冒可能引发竞争、合规和法律风险。
  • 合成模型过拟合风险: 当生成数据规模远大于训练数据时,合成样本可能过于“靠近”原始样本,增加反向攻击风险。


报告提出通过六级隐私框架及攻击抵抗测试,结合多层隐私保护技术,从制度和技术角度降低这些风险。

---

6. 批判性视角与细微差别


  • 报告立场偏向乐观,强调合成数据在隐私保护和模型提升上的潜力,但在效用损失、隐私泄漏概率等方面存在潜在平衡难题,未深入披露不同方法的具体弱点及失败案例。

- “隐私等级”框架虽具实用性,但各个等级间的转变是否平滑,实际操作复杂程度和成本并未详细展开。
  • 多模态合成的通用性和迁移性能存在挑战,报告提出但详细跨场景验证不足。

- 对于合成数据是否真正提升泛化能力及公平性,存在理论支持不足和实验局限的问题。
  • 高级生成模型(GAN、扩散模型)在金融领域的解释性缺失,报告有所提及,但未深入展开对应风险。

- 报告数据主要偏重于单案例或公开数据集的实验验证,是否具备行业大规模应用的代表性尚不明确。

整体而言,报告对合成数据技术的市场潜力展望充分,但科学严谨性和风险揭示方面仍存在进一步提升空间。

---

7. 结论性综合



本报告全面审视了合成数据在金融领域的多层面应用,理论结合实践,涵盖数据生成技术、评估指标、隐私保护框架及多模态数据合成。通过详尽的技术剖析和丰富的实例,报告重点强调:
  • 合成数据在隐私保护(六级隐私保护体系)、数据共享限制缓冲、模型训练数据增强、反事实场景构建等金融实际痛点中的关键作用。

- 主流合成技术(GAN、Diffusion、统计模拟、Agent-based模型)针对表格、时间序列、事件序列、文档、图像及文本数据均展现出独特优势与挑战。
  • 下游任务(如信用卡欺诈检测、客户转化预测、手写体OCR)验证了合成数据的可用性和提升潜力。

- 采用差分隐私机制和攻击防御测试保障合成数据的安全性与合规性,最大限度降低数据泄漏风险。
  • 多主体市场模拟(ABIDES)与深度生成模型结合提供金融市场多样、现实且可控的仿真环境。

- 手写体和文档合成技术拓宽了金融非结构化数据处理的边界,提高模型的泛化和多样性。

图表分析印证了报告方法的实证基础,包括t-SNE区域分布、性能评价曲线、隐私防御等级示意、风格迁移时序图、市场价格复现等,全面呈现合成技术的适用潜力与当前限制。

最终,报告指出合成数据在金融领域属于新兴技术,实务应用及理论方法尚在优化、扩展阶段,期待后续针对解释能力、跨模态融合、公平性增强及检验机制的深入研究与行业实践,为金融机构提供合规、高效与安全的数据创新路径。

---

总结



J.P. Morgan AI研究团队通过本报告,提供了合成数据在金融行业的详尽应用蓝图,聚焦生成方法、隐私保障指标、任务驱动多模态合成,辅以丰富用例验证其潜力。报告兼顾理论架构与技术前沿,既展现合成数据打破数据孤岛、促进AI应用的巨大价值,也审慎揭示隐私风险和技术不足,极具参考价值和指导意义。金融科技从业者、研究学者和监管机构均可借鉴其中脉络与框架,推动合成数据技术的健康发展与合规落地。

---

引用页码:
[page::0-45]

报告