`

机器学习在上市公司财务造假识别中的应用

创建于 更新于

摘要

本报告基于2008-2018年上市公司财务造假数据,构建79个财务及非财务特征,采用Logistic回归、支持向量机、决策树及随机森林多种机器学习模型进行财务造假识别,发现非标审计意见、低分红、高换手率等为重要预警指标,模型在准确率和召回率上表现良好,为识别财务造假提供了有效工具和决策参考[page::0][page::3][page::4][page::13][page::17]

速读内容


财务造假样本及行业时间分布 [page::3][page::4]



  • 2008-2018年内财务造假公司共107家,涉及309份年报。

- 机械、医药、建材行业为财务造假高发行业,交通运输行业少有造假。
  • 财务造假数量整体增长,且多为连续多年造假情况。


财务造假违规类型分析 [page::4][page::5]


  • 超过90%的财务造假类型为虚构利润,利润虚增为主要动机。

- 造假手段可能包括虚增应收账款、预付款项等资产项目,以及异常毛利率。

量化特征变量构建及显著性检验 [page::6][page::9][page::10]

  • 构建79个特征变量,涵盖财务指标(41个)、公司基本情况(如审计意见、人员变动等)及市场指标(如股息分红、换手率)。

- 53个特征通过显著性检验,涵盖财务比率异常、审计非标、董事会结构等多维信息。
  • 部分关键显著特征示例:资产负债率、应收账款比率、审计意见、董事会人数等。


Logistic回归模型构建与评价指标 [page::10][page::12][page::13]


| 指标 | 全样本 | 训练集 | 测试集 |
|----------------|---------|---------|---------|
| 准确率 | 77.37% | 76.40% | 76.04% |
| 精确率 | 2.96% | 2.90% | 2.78% |
| 召回率 | 64.23% | 65.70% | 63.51% |
  • 选取11个显著变量构建Logistic模型,系数符号符合经济学意义。

- 重要因子包括非标审计意见、预付款项比率、董事会人数、机构减持、换手率、员工减少、应收账款比例、累计单位分红等。
  • 模型具有较好的泛化能力,避免了多重共线性问题。


机器学习不同模型表现及特征重要性 [page::13][page::14][page::15][page::16][page::17]

  • 支持向量机(SVM)相较Logistic回归提升准确率、精确率,召回率接近。

- 决策树准确率和精确率较高,但存在过拟合导致测试集召回率下降。
  • 随机森林模型提升准确率(94.6%)和精确率(13.62%),但召回率较低,适合识别高概率造假样本。

- 多模型共同验证非标审计意见、年度累计单位分红、年平均换手率、董事会人数、机构持股比例、预付款项/流动资产、应收账款/营业收入是关键识别特征。



深度阅读

证券研究报告详尽分析报告



---

1. 元数据与报告概览


  • 报告标题:《机器学习在上市公司财务造假识别中的应用》

- 发布机构:中信建投证券研究发展部金融工程团队
  • 发布日期:2020年9月30日

- 分析师
- 丁鲁明(金融工程团队首席分析师)
- 王程畅(计算机技术硕士,从事A股择时及行业配置基本面量化策略研究)
  • 报告主题:以2008-2018年中国A股上市公司财务造假案例为基础,结合财务及非财务指标,运用多种机器学习算法(Logistic回归、支持向量机、决策树、随机森林)来构建上市公司财务造假识别模型,探讨特征变量的重要性及模型预测能力。
  • 核心论点

- 财务造假数量逐年增加,虚构利润是最主要的造假类型,超过90%的处罚因虚构利润而起。
- 基于财务指标、公司基本信息及市场表现共构建79个特征,经过严谨样本处理。
- 多种机器学习模型均表现出较高的预测准确率,尤其随机森林在提高精确率方面表现最佳。
- 不同模型一致认为非标审计意见、低分红、高换手率、高董事会人数、较高的预付款及应收款占比等为关键造假特征。
  • 风险提示

- 新财务造假手段的涌现可能降低现有模型的预测准确性。
- 任何模型均存在局限性,且模型预测具有一定误判概率。
  • 投资评级及目标价

- 本报告侧重于识别财务风险,未明确涉及具体投资评级及目标价设置。

---

2. 逐节深度解读



2.1 财务造假样本筛选及特征分析



2.1.1 造假样本整理


  • 时间区间为2008年至2018年,剔除2019年因处罚公告滞后性。

- 样本共计107家上市公司,包含309份年报,重点为年报数据,季度及临时报告因数据不统一不计入。
  • 样本来源包括证监会、上海及深圳交易所公布的处罚公告。


2.1.2 行业分布


  • 机械、医药、建材行业为财务造假高发行业,分别涉案数量最高(机械13家,医药10家,建材10家)。

- 交通运输等行业造假极少,表明行业特征对造假动机和能力具有一定影响。

图1分析:
- 图1以条形图形式展示不同行业造假公司数量,突出不同行业风险差异。
- 造假趋势呈现行业集中特征,便于行业针对性风控。

2.1.3 时间分布与持续性


  • 造假案件逐年递增,2018年略降可能因处罚公布滞后。

- 大部分公司连续造假年数为2年,少数公司造假长达5-8年,表明大规模长期隐瞒不足为奇。

图2分析:
- 左图显示逐年造假案例数量上升趋势。
- 右图统计连续造假年数分布,2年造假最多,隐含期效应明显。

2.1.4 违规类型


  • 超过90%的违规则为“虚构利润”,其次为虚列资产、推迟披露等。

- 财务造假主要动机是利益驱动,通过利润修饰改善财务表现。
  • 具体手段如虚增应收账款、虚增收入、降低费用等。


图3分析:
- 明确展现虚构利润占绝对主导,指导模型重点从利润端指标入手。

2.1.5 样本处理策略


  • 采取每年为独立造假样本的策略,考虑处罚滞后性,确保模型训练与实际业务的一致性。

- 控制样本为当年全部无造假上市公司,避免匹配法在实际识别中的局限。
  • 该样本划分更具实践参考价值,虽降低预测精度,但提升模型鲁棒性。


2.2 财务造假特征的选择



2.2.1 财务指标(共41个)


  • 涵盖流动比率、速动比率、资产负债率、各类周转率(总资产、应收账款、应付账款、存货)、利润相关指标(净利率、毛利率等)。

- 增长率指标反映资产、成本、盈利的年增长,动态体现异常变动。
  • 比率指标揭示资产结构修饰迹象,如预付款项/流动资产、应收账款/营业收入等。


表1展示了这些细分指标及其归类。

2.2.2 公司基本情况(共20多个特征)


  • 包括公司性质(民营、国企等)、审计事务所信息及审计意见(四类哑变量划分)。

- 人员变动(董事长、财务总监、总经理变更,董事会人数,高管及员工人数及变动情况)作为经营稳定性间接指标。
  • 关联交易比例及非经常性损益对利润的影响亦纳入考量。


表2详细列出的各项基本信息指标。

2.2.3 市场指标(共15个)


  • 常用市净率、市现率、市销率、市盈率。

- 年度平均换手率、年相对涨跌幅。
  • 股息分红(股息率及其变动、年度累计分红及其减少情况)。

- 持股结构(机构、大股东及前十大股东持股比例及减持情况)。

表3按指标类别具体呈现。

2.2.4 指标处理


  • 连续变量通过行业分位数归一化,消除行业间异质性,确保指标在[0,1]区间。

- 哑变量保持原值。
  • 样本缺失剔除,清洗后造假样本246个,控制样本23024个。


2.3 造假预测模型建立



2.3.1 描述性统计与显著性检验


  • 通过对79特征的T检验,筛选出53个显著特征(P<0.1)。

- 主要发现:
- 造假样本资产负债率较高,周转率多较低,净利润率等利润指标呈下降趋势。
- 变动指标(应收账款增长率、预付款项等)明显偏高。
- 审计意见非标比例高,董事会人数更多且人员变动频繁。
- 控制样本的分红水平、机构持股更为强势。

表4-表6详细列出具体特征数值与显著检验结果。

2.3.2 Logistic回归分析


  • 采用逐步回归筛选显著变量,构建最终模型,因变量为是否造假(1为造假)。

- 相关系数均符合经济学预期且P值均小于0.01,模型稳健。
  • 关键变量及系数方向:

- 负利润率(正系数,说明负利润企业更易造假)。
- 预付款项/流动资产及应收账款/营业收入(正系数,显示资产端的异常比率)。
- 董事会人数(正系数,越多越可能造假)。
- 机构是否减持(正系数,机构减持暗示信号)。
- 年平均换手率(正系数,频繁交易代表异常)。
- 审计意见非标(包括保留、强调、无法表示均显著正相关)。
- 员工人数是否减少(正相关,经营困境的间接信号)。
- 年度累计分红(负系数,分红越高,造假意愿越低)。
  • 相关性热力图显示各因子之间相关性低,避免多重共线性,提升模型稳定性。
  • 模型阈值根据造假比例设定(0.01056),避免模型因严重样本不平衡导致对造假样本的忽视。
  • 混淆矩阵和评价指标显示:

- 训练、测试集准确率稳定约77%,召回率较高(63%-65%),但精确率较低(约3%),表明模型能较多识别造假但误判较多。

见表7-表9,图4及图5展示模型性能与特征重要性。

2.4 其他机器学习算法比较



2.4.1 支持向量机(SVM)


  • 使用基于径向基核(RBF),加权法解决样本不平衡,权重比例约93.6:1。

- 表现优于Logistic回归,整体准确率提高至80%以上。
  • 精确率提升至4.65%,召回率约81%。

- 训练集与测试集性能接近,模型稳定。
  • 表10-表11呈现混淆矩阵及评价指标。


2.4.2 决策树(CART算法)


  • 树模型易过拟合,结果显著体现:

- 训练集召回率达100%,测试集召回率显著下降至37.84%。
- 精确率在测试集3.61%,无明显优势。
- 准确率约89%。
  • 表明决策树对训练样本记忆过强,泛化能力差。

- 重要特征与前述模型部分一致,审计意见、换手率等依旧核心。

见表12-表13, 图6。

2.4.3 随机森林


  • 集成学习架构,基于多个决策树投票,改善过拟合问题。

- 精确率显著提升(测试集8.22%),准确率达95%左右。
  • 召回率下降(32.4%),倾向于减少误判但漏检相对较多。

- 重要特征同样包含审计意见、年度分红、换手率、预付款/流动资产、应收款项/营业收入等。
  • 表14-表15及图7展示结果。


---

3. 图表深度解读



图1:财务造假的行业分布(page 3)


  • 展示了2008-2018年107家造假公司分布行业情况。

- 机械行业以13家公司领先,医药、建材紧随其后。
  • 多行业差异显著,提示不同产业面临的造假风险不一致。

- 该图说明行业属性是需纳入风险识别的基础维度。

图2:造假年份分布及持续造假年数(page 4)


  • 左图显示造假年报数量逐年增长,最高峰见于2016年。

- 2018年下降推测与发现延迟有关,可能还有隐匿造假未披露。
  • 右图显示多数公司连续造假1-2年,仍存在极个别长期造假者。

- 强调了造假行为往往是连续动态过程。

图3:主要违规类型占比(page 5)


  • 清晰展现虚构利润违规占比高达90%以上。

- 消息提示利润端指标为建模重点。
  • 次要类型如虚假记载、资产虚列等影响较小。


图4:Logistic回归特征相关性热力图(page 11)


  • 各特征相关系数大部分绝对值低于0.2,表明不存在多重共线性。

- 保证模型解释性和稳定性。

图5、6、7:各模型特征重要性(pages 13、15、16)


  • Logistic回归(图5):审计意见“无法”最重要,其次为“保留”审计意见,年度累计单位分红、董事会人数和应收账款等紧随其后。

- 决策树(图6):审计意见“标准”重要性最高,年平均换手率次之,表明模型识别标准审计企业的差异。
  • 随机森林(图7):同样突出审计意见及年度分红,换手率及资产相关指标亦为核心。
  • 通过三种模型重要性对比,审计意见、分红率、换手率、资产负债相关比率均反复出现,说明其识别价值稳定可信。


---

4. 估值分析


  • 本报告未涉及定价或估值模型,重点聚焦于财务造假风险识别与预测机制。

- 未涉及DCF、市盈率、市净率等传统估值法。

---

5. 风险因素评估


  • 报告标明两大风险

- 新兴造假手段风险:因财务造假手段不断进化,模型特征可能失效。
- 模型预测局限性:任何机器学习模型均存在误判风险,特别在样本不平衡条件下,精确率有限。
  • 实际影响

- 误判过多可能导致资源浪费,漏判则风险未被充分规避。
- 新手段催生特征漂移,需要持续更新模型。
  • 未具体分配发生概率,侧重提醒用户对模型结论保持关注。


---

6. 批判性视角与细微差别


  • 优点

- 样本选择完整,时间跨度足够长且关注公告数据,确保数据真实可靠。
- 样本处理合乎实际,避免理论上的匹配方法对实际应用造成误导。
- 结合财务、非财务及市场多维度指标,使模型较全面。
- 多模型对比,增强结果信度。
- 注重经济学解释,对模型变量给予合理说明。
  • 潜在不足或审慎点

- 仅使用已披露处罚的公司数据,预示一定的发现滞后和偏向明确案件的反事实风险,部分隐性造假未被覆盖。
- 精确率普遍偏低(尤其Logistic回归和SVM),表明误报率较高,实操时易导致过多“虚警”,增加筛查成本。
- 决策树模型过拟合严重,表现不稳定,表明单一模型应用风险较大。
- 对于新型或隐蔽造假手段的识别能力存疑,需未来数据持续验证。
- 报告虽涉及样本行业分布和时间趋势,但对行业失败根因或监管演变机制缺乏详细探究。
- 数据处理部分对指标缺失样本直删,可能导致样本损失,影响模型代表性未展开深入讨论。

---

7. 结论性综合



本报告深入研究了中国A股2008-2018年时期上市公司财务造假的识别问题,借助详尽的财务指标、公司基本信息及市场表现数据,构建共79个特征变量,采用Logistic回归、支持向量机、决策树及随机森林四种主流机器学习算法,全面评估了财务造假检测模型的稳定性和性能表现。

整体发现:
  • 中国上市公司财务造假事件数量持续增长,虚构利润是主要违规类型,直接影响投资者判断与资本市场健康发展。

- 充分利用年度年报数据构建样本,控制样本由当年全部未造假公司构成,确保模型的实操有效性。
  • 在财务指标方面,预付款项/流动资产、应收账款/营业收入等比率指标异常是造假的重要信号。

- 非财务指标如非标审计意见、董事会人数多、高换手率、机构减持以及低年度累计单位分红均在不同模型中反复体现其重要性。
  • Logistic回归模型因经济学含义明确且泛化能力优秀,可作为基础的判别工具。

- 支持向量机在提升准确率和精确率方面表现优于Logistic回归,尤其在减少误判方面有显著进步。
  • 单纯决策树模型泛化不足但在训练集表现完美说明过拟合现象,需要通过集成学习方法修正。

- 随机森林模型显著提升了精确率,达到13.6%,准确率高达95%以上,表现出色但召回率较低,提示其实用时可作为造假警示筛查手段,减少误报风险。

模型共识特征重点为:
  • 审计意见非标(保留、强调、无法表示)

- 年度累计单位分红低
  • 年平均换手率高

- 董事会人数较多
  • 机构持股比例较低

- 预付款项与流动资产比率较高
  • 应收款项与营业收入比率较高


这些特征不仅在统计上显著,而且经济学含义合理,兼具一致性和稳定性,为市场投资者及监管部门识别潜在财务造假风险提供了一条行之有效的量化路径。

---

图片引用(图表示例)



图1:财务造假的行业分布

图2:财务造假的年份分布(左)及连续造假年数分布(右)

图3:财务造假违规类型占比

图5:Logistic回归特征重要性

图6:决策树特征重要性

图7:随机森林特征重要性

---

参考文献与数据来源


  • 中国证监会、上海交易所、深圳交易所公告数据

- WIND数据库
  • 中信建投证券研究发展部金融工程团队


---

总结



该报告对上市公司财务造假识别的研究体现出较强的实用价值和理论深度。通过丰富变量设计和多模型对比,有效展示了机器学习在该领域的应用潜力。特别是审计意见非标、低分红、高换手率等变量的显著性,为实际投资风控与监管监测提供可操作的先导指标。尽管存在样本不平衡与模型误判等挑战,报告在方法论和实证层面的完整性值得肯定。

---

[page::0],[page::1],[page::2],[page::3],[page::4],[page::5],[page::6],[page::7],[page::8],[page::9],[page::10],[page::11],[page::12],[page::13],[page::14],[page::15],[page::16],[page::17]

报告