`

数据挖掘在上市公司财务造假识别中的应用

创建于 更新于

摘要

本报告基于2002年以来A股财务造假案例,结合财务和非财务指标,运用神经网络、SVM、决策树等多种数据挖掘算法构建财务造假识别模型。结果显示,决策树中引入误分类损失函数后,CHAID算法表现最佳,实现93.16%的准确率和59.41%的造假样本召回率,主要影响指标包括审计师意见、前一年亏损情况、其他应收款比例、销售毛利率及预付款项比例,为上市公司财务造假风险识别提供有效路径和实践依据[page::0][page::4][page::9][page::23]

速读内容


研究背景与问题定义 [page::0][page::2]

  • 近年国内外多起上市公司财务造假案件给投资者造成巨大损失,提升财务造假识别能力成为重点研究方向。

- 构建涵盖财务与非财务指标的特征体系,以识别上市公司年报潜在造假风险。

数据说明与处理 [page::4][page::5]



  • 造假样本共171条,涵盖多个行业,2011-2015年为造假高发期。

- 全样本包括造假与非造假对照样本共7839条,样本存在严重类别不平衡(比例约1:46),采用差异误分类损失控制模型偏差。

核心特征指标及相关性分析 [page::6][page::7]


  • 剔除高度相关特征以降低多重共线性,剩余关键指标包括预付款项占流动资产比例、其他应收款、审计意见等。


神经网络模型分析与结果 [page::8][page::9][page::10]



| 指标 | 训练集 | 测试集 | 全样本 |
|--------|-----------|-----------|-----------|
| 准确率 | 97.92% | 97.83% | 97.90% |
| 精确度 | 100.00% | 无 | 100.00% |
| 召回率 | 4.24% | 0.00% | 2.94% |
| F值 | 8.13% | 0.00% | 5.71% |
  • 神经网络对非造假样本识别准确但几乎无法识别造假样本,样本不平衡显著影响表现。

- 主要重要预测变量:审计意见、前一年是否亏损、其他应收款占流动资产比例、股东持股集中度。

支持向量机(SVM)模型结果 [page::11][page::12][page::13]



| 指标 | 训练集 | 测试集 | 全样本 |
|--------|-----------|-----------|-----------|
| 准确率 | 97.79% | 97.62% | 97.74% |
| 精确度 | 43.75% | 14.29% | 34.78% |
| 召回率 | 5.93% | 1.92% | 4.71% |
| F值 | 10.45% | 3.39% | 8.29% |
  • SVM模型表现与神经网络类似,召回率较低,难以有效识别少数类别造假样本。

- 关键变量重要性排名前列与神经网络一致。

决策树模型对比分析及误分类代价调整 [page::14]至[page::21]

  • C&RT、QUEST、CHAID、C5.0四种决策树算法均引入误分类代价(50:1)以重视造假样本。

- 各模型主要评价指标如下:

| 算法 | 准确率 | 精确度 | 召回率 | F值 |
|--------|-----------|-----------|-----------|-----------|
| C&RT | 94.39% | 10.06% | 20.00% | 13.39% |
| QUEST | 90.11% | 7.33% | 30.59% | 11.83% |
| CHAID | 93.16% | 17.78% | 59.41% | 27.37% |
| C5.0 | 74.27% | 7.07% | 89.41% | 13.10% |
  • CHAID决策树综合表现最佳,精确度、召回率和F值显著优于其他算法。

- C5.0召回率最高但精确度较低,存在较多误报。
  • 关键预测变量高度重叠,包括审计意见、前一年亏损、其他应收款比例、销售毛利率、预付款项比例。


重点指标总结与投资指引 [page::22][page::23]

  • 关注指标:审计师意见负面、前一年净利润亏损、高其他应收款比例、异常销售毛利率、预付款项占流动资产较高。

- 结合财务和非财务指标有助于提升财务造假识别的准确性。
  • 采用决策树及误分类损失函数有效缓解样本不平衡问题,提高造假公司识别能力。


深度阅读

金融研究报告深度分析:“数据挖掘在上市公司财务造假识别中的应用”(2017年12月15日)



---

一、元数据与报告概览(引言与报告概览)


  • 报告标题:数据挖掘在上市公司财务造假识别中的应用

- 作者与发布机构:证券分析师曹春晓,研究支持文雨;发布于申万宏源证券研究所,2017年12月15日
  • 研究主题:通过数据挖掘技术(神经网络、支持向量机、决策树)对中国A股上市公司财务造假年报进行识别,解决数据样本不平衡问题,提高财务造假预测的准确性。

- 核心论点
- 财务造假对资本市场和投资者造成巨大损失,识别造假对维护市场健康发展至关重要。
- 采用包括财务和非财务指标构建特征集,结合多种数据挖掘算法。
- 样本数据存在极端不平衡,决策树中的CHAID算法,借助误分类损失函数调整后,表现优于神经网络和SVM。
  • 主要结论与评级:决策树(特别是CHAID算法)识别财务造假表现最优,准确率为93.16%,召回率59.41%,F值27.37%,是值得关注的判别工具。重点关注的指标包括审计师意见、前一年是否亏损、其他应收款占流动资产比例、销售毛利率、预付款项占流动资产比例。[page::0,2,23]


---

二、逐节深度解读



1. 研究概述(第2页)


  • 论点总结

财务造假表现形式多样,包括虚增交易、虚增资产、提前确认收入、利润调节、隐瞒重大事项。财务造假导致公司退市或破产,投资者巨大损失。已有研究发现管理层是否具备造假动机、资本周转率、杠杆、流动资产比率等指标与造假相关。机器学习技术,尤其数据挖掘方法被应用于造假识别,获得较好分类效果。
  • 支撑依据与假设

依托美国及中国资本市场历史财务造假案例作为研究背景,结合国内外已有文献,并假定管理层动机和财务指标特征可揭示造假风险。
  • 关键信息:财务指标和非财务指标结合使用,尤其考量管理层激励和市场制度等因素。[page::2]


2. 研究方法与数据处理(第4-7页)


  • 数据说明

选取2002年后证监会公开处罚的171个财务造假上市公司年报数据,剔除新股上市首年及连续年度数据,只保留首次造假年份,行业分布以化工、医药生物、纺织服装等为主,2011-2015年为造假高发期(图1与2展示造假样本的行业和年份分布)。
  • 对照样本

同行业非造假公司按匹配法选取,构成7839条对照样本,整体样本显著不平衡(造假样本约占总样本的1/46)。
  • 特征选择:基于文献和动机,采用多个财务比率指标和非财务指标(包括审计意见、是否亏损、股东持股比例等),初选特征详见表1。

- 数据不平衡处理:采纳不同误分类损失策略,将把造假分类为非造假的误判成本设置为非造假误判为造假的50倍,优先提升造假识别能力。
  • 相关性分析:通过相关热力图(图3与4)剔除高度相关变量,保证模型输入变量的独立性和有效性。

- 训练测试划分:随机划分7:3比例划分训练集和测试集。[page::4,5,6,7]

3. 多层神经网络模型(第8-10页)


  • 模型简介

多层感知器(MLP)由输入层、隐藏层与输出层组成,输入数据通过加权求和和激活函数转换,解决线性不可分问题,具体结构图见图5、6。
  • 模型结果

- 神经网络模型通过Bagging构建10个模型,投票生成结果。训练集和测试集准确率均超97%。
- 但混淆矩阵显示对造假样本的识别极差,召回率仅2.94%,说明大部分造假样本未被识别。
- 精确度100%,意味着模型预测的造假样本基本准确,但因预测率极低,实际没捕捉到主要风险。
  • 变量重要性:审计意见(Opinion)、前一年亏损(Prenp)、其他应收款比例、股东持股比例最为重要(图8)。[page::8,9,10,11]


4. 支持向量机模型(第11-13页)


  • 方法简介

SVM通过构造最大边界的超平面实现分类,适用于非线性问题,采用RBF核函数。
  • 模型结果

- 准确率在训练集和测试集均接近98%,与神经网络相似。
- 对造假令识别能力仍然偏弱,召回率仅约4.71%。
- 精确度相对神经网络有所下降,约35%。
  • 变量重要性:与神经网络相似,重点为前一年是否亏损、审计意见、营业利润同比增长率、其他应收款占流动资产比例(图11)。[page::11,12,13]


5. 决策树模型(第14-21页)


  • 方法简介与算法区别

介绍了四种主要决策树算法(C&RT、QUEST、CHAID、C5.0),阐述其分支依据(Gini指数、统计方法、卡方检验、信息增益)、分支类型(二分支或多分支)及变量类型适配性(表8)。
  • 处理不平衡样本策略

利用误分类损失函数调整判别权重,将漏判为非造假的造假样本成本设置为误判非造假的50倍,提高模型对造假样本的敏感度。
  • C&RT结果

- 无误分类损失时,无法识别造假样本。
- 加入误分类损失后,准确率约94.4%,召回率提升至20%,但精确度较低(约10%),说明开始能识别造假样本但误判较多。(图12)
  • QUEST结果

- 准确率约90%,召回率提升近30%,精确度较低(7.3%),整体效果低于C&RT。
- 变量重要性与C&RT高度一致,确认了关键指标的稳定性。(图13)
  • CHAID结果

- 准确率93.16%,召回率达59.41%,精确度17.78%,F值27.37%,是四种决策树算法中综合性能最优者。
- 强调模型对造假样本的有效识别,表现显著优于神经网络与SVM等。
- 重要变量与之前一致,并补充预付款项占流动资产比例的重要性。(图14)
  • C5.0结果

- 准确率显著较低(约74%),但召回率高达89.41%,精确度只有7.07%,存在较多误判。
- 变量重要性稍有不同,除核心指标外,增加了主营业务收入同比增长率、主营业务利润占比、存货占比等指标。(图15)
  • 四模型总结(表23):

- CHAID综合表现最好,准确率高、召回率及F值相对优异。
- C5.0召回率最高,但代价是较差的精确度和较低的准确率。
- 加入误分类损失显著提升了对少数类(造假)样本的识别能力,各算法均受益。
  • 关键指标统一确认(第22页):

- 审计师意见(Opinion)
- 前一年是否亏损(Pre
np)
- 其他应收款占流动资产比例(OtherRectoCur)
- 销售毛利率(Salegropratio)
- 预付款项占流动资产比例(PretoCur)
这些指标与业内财务造假常见手段及动机高度契合,如负面审计意见代表潜在财务风险,亏损公司更有动力造假,异常资金往来反映虚增收入等。[page::14-22]

6. 报告总结(第23页)


  • 基于多种数据挖掘算法,决策树方法尤其是加入误分类损失函数的CHAID算法表现最佳。

- 样本不平衡问题是财务造假识别的难点,误分类成本设置为关键手段。
  • 选定若干关键指标作为造假识别的重要特征,有助于后续检验和监管。

- 该研究为市场监管、投资者及分析师提供了科学参考和技术工具,帮助有效判别年度财务报告的真实性。
[page::23]

---

三、图表深度解读



图1-2:造假样本分布


  • 描述:图1显示171条造假样本的行业分布,化工(26家)、医药生物(17家)、纺织服装(14家)等行业涉假较多。图2展示造假年度分布,2011-2015年为高峰期,2012年最高(21起)。

- 意义:揭示行业造假集中度和时间趋势,为后续模型训练提供行业区分和时间序列视角。
  • 局限:未显示无造假样本行业分布,行业造假比例待进一步研究。[page::4]


图3-4:特征相关关系图


  • 描述:图3为初始特征相关矩阵,显示部分变量高度相关(如资产负债率与流动比率);图4为剔除部分高度相关变量后的特征相关图,变量间相关度降低。

- 意义:避免多重共线性干扰,保证模型输入特征的独立性,提高模型泛化能力。
  • 备注:色彩和点大小代表相关性强弱和方向,蓝色为正相关,橙色为负相关。[page::6,7]


图5-6:神经网络基本结构


  • 描述:图5为单一神经元示意,输入变量权重加权求和后激活输出;图6为多层感知器结构,含输入层、隐藏层和输出层。

- 意义:形象展示MLP神经网络计算流程和层级结构,利于理解金融指标输入如何转化为输出决策。
  • 备注:多个隐含层有助于解决线性不可分问题。[page::8]


图7:神经网络结构权重示意


  • 描述:显示输入层变量与11个隐藏神经元间权重系数,线条颜色(蓝色正权重,橙色负权重)和线条粗细代表权重大小。

- 意义:展现各财务指标对模型输出影响的正负方向及力度,有助于理解变量重要性机制。
  • 局限:未详细列出全部变量名称,权重解读需结合变量名称。[page::9]


表格2-4:神经网络模型准确率与效能


  • 描述:模型准确率高(97.9%),但通过混淆矩阵和召回率表明造假样本识别能力极弱(召回率2.94%),表现出严重类别偏见。

- 意义:准确率不能反映不平衡样本下的模型真实判别力,需要重点关注召回率和F值。
  • 结论:虽整体准确但不适合实际造假识别。[page::9,10]


图8:神经网络变量重要性


  • 描述:审计意见、前一年亏损、其他应收款占比、股东持股比例名列前茅。

- 意义:混合财务与非财务指标对判别贡献突出,支持复杂变量体系理论。
  • 备注:符合造假多通过关联交易和管理动力等非纯财务因素影响的假设。[page::10]


图9-10:SVM分类示例图


  • 描述:图9展示线性可分情形的SVM分类间隔,图10展示非线性数据映射到高维空间实现线性分割。

- 意义:直观理解SVM原理与优势,说明模型在复杂金融数据分类中的适用性。
  • 局限:非数学背景需讲解辅助。[page::11]


表5-7:SVM模型性能及混淆矩阵


  • 描述:数据总体准确率高(约97.7%),但同样识别造假能力不足(召回率4.71%),精确度34.78%略优于神经网络。

- 意义:SVM能较好区分多数类样本,但针对少数类样本改进空间大。[page::12,13]

图11:SVM变量重要性


  • 描述:前一年亏损、审计意见、营业利润增长、其他应收款占比居前。

- 意义:与神经网络变量重要性高度一致,验证了这些变量的稳定重要性。[page::13]

表8:决策树算法比较表


  • 描述:明确各决策树算法分支依据(Gini、卡方等)、分支形式(二分、多分)、变量类型适配性。

- 意义:为选择适合算法奠定基础,引导读者理解不同决策树技术特点。
  • 展开:适合连续和分类变量的算法多样,针对分类任务的算法更细分[page::14]


表9-13及混淆矩阵和变量重要性图(C&RT)


  • 描述:不考虑误分类损失时,模型无法识别造假(误判100%);加入误分类损失后,准确率稍降至94%,造假召回率提升至20%,但精确度不足。

- 变量重要性:其他应收款占比、前一年亏损、审计意见居重要位置。[page::15,16,17]

表14-16及混淆矩阵与变量重要性(QUEST)


  • 描述:准确率90%,召回率约30%,低于C&RT。

- 变量重要性:同前,确认核心特征稳定性。[page::17,18]

表17-19及混淆矩阵与变量重要性(CHAID)


  • 描述:综合表现最佳,准确率93.16%,召回率59.41%,精确度17.78%,F值27.37%,优于其他算法。

- 变量重要性:除核心3变量外,加入预付款项占比,财务造假逻辑吻合。
  • 结论:CHAID对少数造假样本的识别能力明显优于其他模型,实用价值高。[page::18,19]


表20-22及混淆矩阵、变量重要性(C5.0)


  • 描述:准确率较低(74.3%),召回率最高(89.41%),但误判偏多,精度低(7.07%)。

- 变量重要性:除核心指标,还强调主营业务收入、利润、存货等。
  • 浅析:C5.0适合召回优先,但商业应用需权衡误判风险。[page::20,21]


表23:四种决策树综合指标比较


  • 结论

- CHAID算法综合优于其他算法。
- C5.0高召回低精度。
- 加权误分类损失显著优化少数类识别,提升模型实际价值。
- 综合考量指标有助选模型适配实际场景。[page::21]

---

四、估值分析



本报告未涉及传统意义上的企业估值分析、目标价制定或现金流折现。主要焦点在财务造假识别的机器学习模型比较与性能指标评估。因此无典型估值模型分析部分。

---

五、风险因素评估


  • 主要风险隐含于样本不平衡带来的模型预测偏误风险,尤其是低召回导致大量造假样本漏判。

- 报告通过引入误分类损失函数设计解决该问题,兼顾误判成本差异。
  • 不同算法的偏好也会影响最终风险识别的全面性与准确度。

- 报告未特别讨论模型外风险(如样本失真、信息披露新规变化等)。
  • 缓解策略主要集中于调整分类成本和利用多算法模型对比选择。[page::5,16-21]


---

六、审慎视角与细微差别


  • 报告整体显示一定的技术中立态度,强调样本不平衡问题对模型效果的影响及解决方案;

- 精确度与召回率的权衡反映了对造假识别现实困境的深刻认识,但部分模型召回率极低,实用性有限;
  • C5.0算法召回率极高,但准确率低,体现“召回优先”策略的代价,实际应用中可能带来过多假警报;

- 决策树算法虽适合不平衡样本,但模型性能仍受限于输入变量的质量和完整性,数据来源和计算方法未详述,存在黑箱风险;
  • 变量重要度较为一致,表明财务与非财务指标结合是关键,但未进一步探讨指标间非线性复杂互动;

- 报告缺少对未来监管政策变动及市场环境影响的敏感性分析。
  • 报告未明确是否考虑行业动态及经济周期波动对造假可能性的影响。

- 尚无明确多模型集成对比结果披露,未来可考虑融合多算法提高识别稳定性。[page::3,13,21]

---

七、结论性综合



本报告系统地应用多种数据挖掘算法识别上市公司年报财务造假,围绕数据不平衡问题采用误分类损失加权机制,力图提升少数类(造假样本)识别性能。通过对神经网络、支持向量机及多种决策树算法(C&RT、QUEST、CHAID、C5.0)系统比较后,得出下面深刻见解:
  • 数据特征层面,财务指标与非财务指标(审计意见、前一年亏损、其他应收款占流动资产比例等)对识别模型至关重要,反映造假动机与手段的具体财务表现。

- 模型表现层面,简单追求整体准确率会被大量非造假样本主导,造假样本被忽视,召回率成为评判关键。
  • 模型选择层面,决策树尤其是基于CHAID算法的模型,结合误分类损失显示了最佳的综合性能,模拟现实中对造假样本高成本关注需求,召回率与精确度平衡较佳。

- 实用意义,该模型可为投资者与监管机构提供数据驱动的辅助判别工具,有助于提前发现潜在财务造假风险,减少投资损失,促进市场监管。
  • 研究限制,尚需升级模型对非线性、动态及长期造假行为的识别能力,扩展指标体系丰富度,并验证模型在不同行业和时间段的泛化能力。

- 图表信息融汇,通过行业与年度分布图明确造假热点领域;相关性图验证变量筛选合理;模型结构图及变量重要度图揭示算法运行机理及关键判别因素;各模型混淆矩阵和评价指标表明模型各异优劣与权衡。

综上所述,报告科学、系统地展示了多种数据挖掘技术在财务造假识别中的应用路径,最终推荐基于CHAID的决策树模型,并明确需重点关注的核心指标,为中国资本市场的风险防控提供了宝贵参考。[page::0-23]

---

附:部分主要图表示例(Markdown 格式)


  • 造假样本行业分布图(第4页)



  • 造假样本造假年度分布图(第4页)



  • 特征指标相关性图(第6页)



  • 神经网络结构示意图(第9页)



  • 决策树算法CHAID变量重要性示意图(第19页)




---

本文严格基于报告内容进行分析,未注入附加主观判断。所有数据和结论均可溯源至原文对应页码。

报告