Corporate Fraud Detection in Rich-yet-Noisy Financial Graph
创建于 更新于
摘要
本报告针对企业财务欺诈检测中的信息过载和隐藏欺诈问题,提出一种结合知识图嵌入与鲁棒双阶段学习的图卷积网络模型(KeGCN_R)。通过构建中国A股18年财务知识图谱,深入分析了支持节点过多导致的图信息噪声和标签噪声带来的挑战,并设计了以元路径为基础的公司子图及基于贝叶斯标签转移矩阵的隐匿欺诈鲁棒训练策略。实验证明,所提方法在处理复杂关系和标签噪声方面均显著优于现有方法,提升了欺诈识别的准确性和鲁棒性 [page::0][page::1][page::4][page::5][page::7][page::11].
速读内容
- 研究背景与意义 [page::0][page::1]:
- 企业财务欺诈指上市公司通过伪造财务报表、非法内幕交易等方式谋取非法利益,具有系统性金融风险。
- 传统基于人工和机器学习方法多忽视公司间丰富的关系信息(如董事/高管关联、关联交易)。
- 收集了中国A股2003-2020年18年数据,构建包含公司节点及大量支持节点(DSE、RPT)的财务知识图谱,揭示信息过载和隐藏欺诈两大挑战。

- 数据规模与特征分析 [page::4][page::5]:
| 数据集 | 公司节点数 | DSE&RPT节点数 | 欺诈案例数 | 欺诈比例(欺诈:非欺诈) | 实体数 | 关系数 | 边数 | 时间跨度 |
|---------|------------|---------------|------------|------------------------|--------|--------|-------|------------|
| MBM | 23,341 | 658,702 | 6,351 | 1:6.87 | 790,374| 41 |5,580,916|2003-2020 |
| SME | 12,651 | 220,848 | 3,351 | 1:5.25 | 295,461| 41 |2,311,465|2003-2020 |
| GEM | 9,422 | 147,061 | 1,640 | 1:8.35 | 220,060| 41 |1,651,936|2009-2020 |
- 支持节点数远超公司节点,达16-28倍,且大部分支持节点属性缺失严重,形成信息过载问题。
- 欺诈案件发现存在显著延迟,约70%欺诈未能同年被发现,平均延迟达1-2年以上,形成隐藏欺诈的标签噪声。

- 模型设计:知识增强型多路径加权GCN(KeGCN) [page::6][page::7][page::8]:
- 利用TransE知识图嵌入将支持节点信息通过对比学习转化为公司节点的向量表示,有效缓解支持节点“噪声”带来的信息过载。
- 以公司为主节点构造基于元路径(关联交易RPT、同一公司不同时期SC、共享董事SDSE)的子图,通过多路径加权GCN层学习节点表示。
- 设计层次化注意力融合机制,聚合不同元路径和多种初始节点表示(属性与知识嵌入)。
- 最后通过全连接层分类,预测欺诈概率。

- 隐藏欺诈鲁棒双阶段学习方法 [page::8][page::9]:
- 将隐藏欺诈视为带特定结构的标签噪声,噪声为非对称且实例及邻居依赖:即只有真正欺诈样本可能被标注为非欺诈(隐匿),且邻居关系影响误标概率。
- 第一阶段通过训练带置信度正则化的参考模型估计贝叶斯最优标签。
- 第二阶段训练基于多路径GCN的贝叶斯标签转移矩阵模型,估计每节点隐藏欺诈率,用于前向损失校正,提升模型对噪声的鲁棒性。
- 实验结果总结与性能优势 [page::9][page::10][page::11][page::12]:
- 数据集随板块MBM、SME、GEM分组,采用AUC评估指标。
- KeGCN_R在所有数据集上显著优于传统方法(XGBoost、DNN)和多种GNN基线(GCN、MW-GCN、DAGNN、MHGCN、FastGTN等)。
- 知识嵌入对缓解信息过载效应及提高识别准确率关键,消除KE导致性能降低。
- 双阶段鲁棒训练显著提升MBM上AUC,显著优于其他标签噪声鲁棒算法(如NRGNN、RTGNN、CORES和BLTM)。

深度阅读
详尽深度分析报告:《Corporate Fraud Detection in Rich-yet-Noisy Financial Graph》
---
1. 元数据与概览
- 报告标题:Corporate Fraud Detection in Rich-yet-Noisy Financial Graph
- 作者/机构:Shiqi Wang 等,南京大学人工智能学院、计算机科学学院、管理与工程学院及国家重点实验室协同完成
- 发布时间:论文正文未明确具体发布日期,但引用文献最迟为2024年,推断为2024年发布或近年
- 研究主题:针对企业欺诈检测,基于金融域的异构知识图谱,通过图神经网络结合知识图谱嵌入与鲁棒学习提高检测性能。
- 核心论点:
- 传统方法未能有效整合公司网络中的丰富交互信息,导致欺诈检测效果不佳。
- 提出基于18年中国上市A股交易数据构建的金融知识图谱,囊括公司节点、董事/监事/高管(DSE)以及关联交易(RPT)等,构建三大子图。
- 阐明两大核心问题:“信息过载” — 支撑节点(DSE及RPT)远多于主体公司节点,导致GCN消息传播受阻;“隐藏欺诈” — 欺诈往往未能及时被识别,造成标签噪声影响模型训练。
- 针对这两个问题,提出“知识增强GCN与鲁棒双阶段学习框架(KeGCNR)”,利用知识图谱嵌入缓解信息过载,并通过贝叶斯转移矩阵进行标签噪声校正,实现对隐藏欺诈的鲁棒检测。
- 实验对比多种现有基线,表明该方法在准确率和鲁棒性均占优。
- 关键词:企业欺诈、数据质量、数据挖掘、图神经网络、监管科技(RegTech)[page::0,1]
---
2. 报告章节深度解读
2.1 引言与挑战定义
- 引言详细介绍企业欺诈及其对宏观经济和资本市场的潜在风险,强调目前人工监管效率低,急需自动化辅助手段。
- 背景调研指出主流方法多基于传统机器学习(线性回归、随机森林、BP神经网络),依赖专家特征,忽视了公司间复杂的网络关系。
- 关系对欺诈的影响:
- DSE(董事/监事/高管)作为决策层,极大影响欺诈的发生概率;
- RPT(关联交易)易成为非法利润传递的渠道。
- 数据采集:
- 构建三套金融知识图(MBM:主板,SME:中小企业板,GEM:创业板),录入18年(2003-2020)财务数据、关联交易和公司高管信息。
- 两大挑战鲜明提出:
1. 信息过载:支撑节点(DSE、RPT)数约为公司节点数的16-28倍,且支撑节点多数缺少属性,造成GCN消息传递污染和信息稀释问题,限制了直接在异构大图上使用GCN的效果。
2. 隐藏欺诈:仅约30%的欺诈行为在发生当年被系统发现,大量隐性欺诈导致训练数据中标签存在噪声,严重影响模型学习,且该噪声具有非对称和邻居依赖特性。
- 现有工作局限:
- 相关的图神经网络和欺诈检测方法很少考虑上述两问题;
- 仅少数研究涉及关联交易关系分析,但未使用图嵌入/图神经网络或鲁棒学习策略。
[page::0,1]
2.2 方法论核心:知识增强GCN与鲁棒双阶段学习框架(KeGCN
R)- 知识嵌入预训练:
- 利用TransE知识图谱嵌入模型通过三元组(h,r,t)学习节点及关系的稠密表示,避免直接邻居聚合造成的信息过载;
- KGE通过对对比学习(sample pairwise relation)实现公司节点与支撑节点的语义关系传递,克服异构图中支撑节点数量过多引起的噪声干扰。
- Meta-path基公司子图构建:
- 定义三类Meta-path:(1)RPT路径(公司-交易-公司)、(2)公司自身跨年节点连接的超节点meta-path、(3)公司共享同一DSE的路径,
- 构建只含公司节点的子图,避免聚合过多支撑节点,缓解信息过载。
- 多路径加权图卷积层(MW-GCN):
- 整合多种meta-path关系的权重矩阵$\mathbf{W}^{mp}$
- 利用行归一化聚合邻居特征,使得聚合过程考虑到不同meta-path间信息的重要程度,模拟注意力机制但无须额外训练权重,提升效率。
- 层次化注意力融合:
- 第一层:基于不同Meta-path子图的关系重要性加权融合不同子图输出;
- 第二层:融合知识嵌入初始化和财务属性初始化的两支路线输出,使模型兼顾结构信息和节点属性信息。
- 节点分类层:
- 最终分类利用全连接层输出公司欺诈概率。
- 鲁棒双阶段学习策略:
- 第一阶段依赖模型训练产生贝叶斯最优标签;
- 训练贝叶斯标签转移矩阵模型(利用单层MW-GCN),预测每个节点隐藏欺诈概率$\gamma\nu$;
- 该转移模型兼顾标签噪声的不对称性(非欺诈标为欺诈概率为0)及实例和邻居依赖性;
- 第二阶段采用基于转移矩阵的前向损失修正,提升整体模型针对隐藏欺诈标签噪声的鲁棒性。
- 创新点总结:
1. 结合知识嵌入缓解信息过载,实现支撑节点信息向公司节点的有效蒸馏。
2. 明确定义与刻画隐藏欺诈中标签噪声的特点,设计非对称、邻居依赖的噪声模型,建立贝叶斯转移矩阵建模。
3. 公开真实含噪金融图数据集,填补学术界数据空白。
[page::1-8]
2.3 数据分析与数据集构建
- 三大市场(MBM、SME、GEM)构建对应金融知识图:
- 节点规模:公司节点分别为23341、12651、9422,支撑节点(DSE和RPT)量级远超公司节点,分别达到65.87万、22.08万、14.7万,比例最高约为28倍,明显验证信息过载问题。
- 图边数量和多样性也较大,边种类均为41类,反映丰富多样的关系。
- 隐藏欺诈标签噪声通过“滞后年差”指标定量呈现:
- 欺诈事件发生当年被监管及时披露概率约为30%;
- 超过50%案例披露滞后至少2年(MBM)或1年(SME、GEM);
- 长期延迟最久可达10年以上,长尾明显。
- 训练集中以未滤除滞后未披露项,测试集则剔除近8年内未确认欺诈公司,保证测试数据较为干净。
- 财务属性预处理:
- 429维财务指标,包括各类财务比例指标、股价波动性、成交率等核心信息;
- 缺失值用均值填充,符合行业规范。
- 以上分析揭示数据的现实复杂性和标签噪声严峻,验证了研究动机。
[page::4-6]
---
3. 图表深度解读
3.1 图1:企业间RPT和DSE关系示意图
- 说明关联交易(非法交易)和隐藏欺诈的具体示意,采用图形符号清晰区分正常公司、欺诈公司及隐藏欺诈标注;
- 表示在图上关系信息是欺诈检测关键,但隐藏欺诈导致新闻公告标签与实际欺诈行为不一致,干扰模型;
- 视觉表达强化了隐藏欺诈标签噪声实例依赖性的直观印象。
[page::1,见图1]
3.2 图2:金融知识图谱架构及Meta-path设计
- 左图展示FKG核心三类节点(公司、DSE、交易)及属性节点关系,节点用年份标注区分时间序列特性;
- 右图示3种Meta-path对应的节点与关系序列,表征了公司通过交易、当年公司及高管间关系的连接路径;
- 色彩清晰区分不同节点类别,体现知识图异构特性,支持多视角子图构造及消息传递;
- 该图是了解论文中Graph架构和信息流通机制的核心图表。
[page::4,见图2]
3.3 图3:隐藏欺诈标签滞后统计
- (a)箱型图显示3市场欺诈发现时间滞后分布,MBM平均滞后约2年,其它市场较短;
- (b)饼图细化滞后年份占比,发现仅30%当年揭露,70%的数据存在滞后,2年以上滞后占43%以上;
- 该数据图形量化隐藏欺诈造成的标签噪声规模,确立后续鲁棒训练的必要性;
- 补充图注信息指明极端滞后案例跨越10年以上。
[page::5,见图3]
3.4 表1:金融知识图谱三大市场统计指标
| 统计指标 | MBM | SME | GEM |
|---------------------|-------|--------|--------|
| 公司节点数 | 23341 | 12651 | 9422 |
| DSE和RPT支撑节点数 | 658702| 220848 | 147061 |
| 欺诈案例数 | 6351 | 3351 | 1640 |
| 欺诈与非欺诈比 | 1:6.87| 1:5.25 | 1:8.35 |
| 实体总数 | 790374| 295461 | 220060 |
| 关系类型数 | 41 | 41 | 41 |
| 图中边数 | 5580916|2311465 |1651936 |
| 时间范围(年) |2003-2020|2003-2020|2009-2020|
- 体现MBM最大,GEM最小且历史最长时间跨度不等;
- 支撑节点数量远超主体,验证信息过载;
- 欺诈样本偏少,类别不平衡明显。
[page::4-5]
3.5 图5:知识嵌入对GEM欺诈检测AUC影响对比
- 实心条对比MW-GCN和FastGTN全图(包含支撑节点)模型与其在仅公司子图上的版本(不含支撑节点),以及KeGCN
- 观察点:
- MW-GCN和FastGTN在包含支撑节点的全图上表现下降,证实信息过载带来的负面影响;
- KeGCNR引入知识嵌入显著改善性能,超越不考虑支撑节点的版本,说明知识嵌入有效融合支撑节点信息且避免噪声干扰;
- 此实验证据支撑方法提出的“信息过载”问题与知识嵌入解决方案的合理性。
[page::11,见图5]
表2:主实验AUC对比(均值±标准误)
| 方法类别 | MBM | SME | GEM |
|--------------------------|--------------|--------------|--------------|
| 传统方法:XGBoost/DNN | 0.706/0.665 | 0.829/0.798 | 0.766/0.799 |
| GNN基线(GCN等) | 0.662~0.725 | 0.828~0.875 | 0.795~0.845 |
| KeGCNR及变体 | 0.743~0.783 | 0.709~0.882 | 0.637~0.868 |
- KeGCNR表现最优,特别是在MBM上提升明显,反映模型对隐藏欺诈和信息过载问题处理优势;
- 消融实验揭示知识嵌入和鲁棒训练均为关键,且财务属性不可或缺;
- 注意融合机制对最大数据集MBM影响有限,而对中小板块有益。
[page::9-10, 表2]
表3:鲁棒训练机制的对比结果
| 方法 | MBM | SME | GEM |
|-------------|--------------|--------------|--------------|
| NRGNN | 0.688 | 0.752 | 0.765 |
| RTGNN | 0.696 | 0.743 | 0.760 |
| 基础GCN | 0.662 | 0.850 | 0.805 |
| KeGCNR+BLTM| 0.782 | 0.882 | 0.868 |
| KeGCNR+CORES| 0.745 | 0.873 | 0.847 |
- KeGCN
[page::12, 表3]
---
4. 估值分析
本报告为机器学习算法研究,无传统财务估值内容,故不涉及现金流折现、P/E、市净率等估值模型,但其方法学中用的转移矩阵和图神经网络训练机制具有数学严谨性和统计估计属性:
- 知识图嵌入采用TransE模型:通过以欧式空间向量加法近似知识三元组关系,学习实体和关系的可微分嵌入向量,属于嵌入式知识表达模型核心方法之一。
- MW-GCN采用基于Meta-path的多权重邻居聚合:把路径权重直接作为聚合加权,近似变换为非参数化注意力机制,提升信息传递精准度。
- 贝叶斯标签转移模型:基于估计Bayes最优标签和观测到的带噪标签,构造具体的实例和邻居依赖概率转移矩阵,属于信息论和统计学习中的标签噪声模型。
- 双阶段训练采用前向损失校正:即结合转移矩阵修改标签损失,使模型目标逼近无噪声的真实分布,显著提升鲁棒性。
以上数学和统计方法对企业欺诈检测任务提供了理论基础,非传统金融估值模型,强调技术方法层面创新。
---
5. 风险因素评估
- 信息过载风险:
- 由于支撑节点泛滥且绝大部分缺失属性,直接使用传统GCN模型容易导致信息传递稀释,降低模型性能;
- 缺乏良好方式集成异构、缺失属性的数据,难以捕获有效代表。
- 隐藏欺诈风险:
- 标签噪声存在非对称性(误将欺诈公司判为非欺诈),且与节点邻居相关,增加建模复杂性;
- 传统标签噪声处理方法较难适用,若忽视会导致模型过拟合错误标签,损害检测效果。
- 模型假设风险:
- 转移矩阵建模依赖于准确的Bayes最优标签估计,参考模型的不完美可能导致转移矩阵估计偏差;
- 依赖Meta-path设计选择,过于依赖先验结构可能导致部分真实关联未被覆盖。
- 数据本身限制:
- 数据截取时间截止2020年,未包含最新市场变化和欺诈特征;
- 部分属性缺失依赖均值填充,可能影响特征表达有效性。
- 缓解策略:
- 采用知识嵌入侧重语义层信息压缩,有效支持节点信息融合;
- 双阶段鲁棒训练降低标签噪声影响,利用邻居信息捕获实例相关噪声;
- 三大市场多样数据及广泛消融实验验证方法稳定性。
---
6. 审慎视角与细微差别
- 潜在偏见:
- 实验中知识嵌入选择TransE,虽简单高效,但其他更先进复杂模型(如RotaTE、ComplEx)可能带来更优表现,未展示对比。
- 对隐性欺诈标签噪声的定义及假设主要基于滞后时间阈值,具体噪声分布可能更复杂,构造测试集的“干净标签”仍存在一定误判可能。
- 模型设计限制:
- 多路径加权聚合不涉及动态权重学习,相比自注意力机制可能存在灵活性不足;
- 鲁棒双阶段学习训练转移矩阵与检测模型独立,可能限制联合优化潜力。
- 数据层潜在矛盾:
- GEM市场起始时间短(2009年),导致时间跨度不足,可能影响模型迁移性;
- 标签噪声主要针对欺诈样本,隐性非欺诈误标未被建模,现实中可能存在误判欺诈风险。
- 报告中未详细提及:
- 模型推理开销和计算复杂度,特别知识嵌入预训练与双阶段训练耗时评估;
- 训练数据失衡的具体处理(仅简单加权交叉熵),潜在进一步提升空间。
---
7. 结论性综合
该研究针对中国A股上市公司广泛构建的三套金融知识图谱,对企业欺诈检测领域难以忽视的“信息过载”和“隐藏欺诈”难题提出系统解决方案:基于知识图谱嵌入的KeGCN模型有效缓解大规模支撑节点噪声,实现公司节点间高效语义信息流传递;结合创新的贝叶斯标签转移矩阵估计与双阶段鲁棒训练方法,显著提升针对隐性欺诈标签噪声的检测鲁棒性。
通过对比传统方法、经典GNN、最新异构GNN及多种标签噪声处理技术,KeGCNR在三个金融板块均实现AUC指标的显著超越,特别在数据最大且隐性欺诈标签噪声最严重的MBM市场表现突出。综合表3的结果显示,KeGCNR独特地结合知识嵌入和隐性欺诈标签噪声的非对称及邻居依赖特性,获得更准确的隐性欺诈概率转移估计,带来鲁棒性大幅提升。
图表中尤以隐藏欺诈标签滞后影响图和知识嵌入贡献对比图作为关键实证,量化隐性标签噪声问题及其对传统GCN方法的制约,并证明知识嵌入蒸馏支持节点信息优于简单邻居聚合策略,理论与实证结合紧密。
整体来看,该报告不仅在数据集规模与实情模拟上创造新高度,也在模型设计上系统处理金融图数据复杂异构关系及标签噪声,填补学界企业欺诈检测中多模态融合、图学习与鲁棒学习结合的空白。未来应关注标签不平衡的更细粒度建模、动态权重学习及端到端联合优化策略,进一步推升检测性能和实时监管能力。
---
参考溯源
- [page::0,1] 引言及问题背景
- [page::1,2] 信息过载与隐藏欺诈挑战阐述,模型整体设计
- [page::3,4] 金融知识图谱构建及Meta-path定义
- [page::4,5,6] 数据详情及隐藏欺诈标签滞后统计
- [page::7,8] 基础模型KeGCN及鲁棒双阶段训练算法原理
- [page::9,10] 主实验与消融,方法性能大幅领先
- [page::11,12] 细节对比实验、鲁棒训练验证
- [page::14-16] 实验设置与参数调优细节
- 图1[page::1], 图2[page::4], 图3[page::5], 图5[page::11], 表1[page::4], 表2[page::9], 表3[page::12]
---
总结
本文在丰富的中国A股上市公司图谱数据基础上,全面地剖析和解决了企业欺诈检测中的两个核心难题,提出了一种集成知识图谱嵌入和贝叶斯标签转移矩阵的创新图神经网络框架,并从数据、理论到实验全方位验证其有效性和鲁棒性,具有重要的理论意义和实际应用价值。