`

基于XGBoost的股票ST风险预警模型

创建于 更新于

摘要

本报告基于2023年股票新规及相关规则构建了包含60维左右因子的ST(特别处理)股票风险预警模型,采用XGBoost分类算法,模型AUC达到0.997,召回率达0.958,财务类因子如扣非前后净利润最低值、净资产和PE对ST风险预测贡献最大。模型已对2023年11月ST概率进行了预测,为投资者提供及时风险控制参考 [page::1][page::2][page::25][page::26][page::27]

速读内容


ST股票风险概念及新规解析 [page::5][page::6]

  • ST股票是指财务异常或面临退市风险的上市公司,根据2023年新规,持续异常利润、营业收入及净资产为主要判定指标。

- 上交所、深交所和北交所分别设有交易类和财务类强制退市规则,主要包括连续成交量低、收盘价低、净资产负值、连续亏损等。
  • 退市风险在四月份表现突出,年报季后ST事件频发,风险提示帮助市场预测及规避踩雷风险。




XGBoost模型介绍及优势 [page::14][page::15]

  • XGBoost为提升树算法,可有效捕捉复杂非线性关系,支持正则化、防止过拟合、自动处理缺失值与多种损失函数。

- 任务采用binary:logistic目标函数,重点评估指标是ROC AUC与召回率,适应ST股票样本不平衡的特点。
  • 相关文献展示XGBoost在信用风险和股票预测领域的优异表现,结合深度学习或组合优化提升精准度。




ST风险预警模型构建与训练 [page::19][page::20][page::21][page::23][page::24]

  • 数据覆盖2010年至2023年,因子来自ST新规、退市规则及相关财务指标,包含60余维,涵盖盈利能力、资产效率、成交量及一致预期。

- 解决ST样本极度不平衡问题,采用欠采样方法提升模型识别少数类样本能力,保证模型训练的有效性。
  • 调整模型参数限制复杂度,防止过拟合,训练损失曲线显示模型收敛并具备良好泛化能力。




关键因子及模型决策过程 [page::25]

  • 重要因子排名前三是:扣非前后净利润最低值、净资产、PE(市盈率)。

- 当盈利水平及估值偏低时,ST概率显著提升。
  • 交易类因子(如近20日最低收盘价、最大连续下跌天数)虽体现市场提前反应,但层级相对较后。



样本外测试表现及最新预测 [page::26][page::27]

  • 模型在2020年至今的样本外预测中稳定,平均AUC达到0.997,召回率为0.958,具备高准确率和覆盖能力。

- 2023年11月份预测出ST概率最高的20只股票名单,最大ST概率高达98.4%,为投资者提供预警参考。

深度阅读

证券研究报告详尽分析报告


报告题目与基本信息

  • 标题:基于XGBoost的股票ST风险预警模型

- 作者:徐建华
  • 发布机构:中信建投证券股份有限公司

- 日期:报告内容时间跨度截至2023年10月31日,含2023年11月最新预测数据
  • 主题:针对中国A股市场中的ST股票风险,运用机器学习中的XGBoost模型构建股票ST风险预警系统,以实现对被标记为ST股票概率的高效预测。


该报告主要传达的信息是:基于2010年至今的历史数据,结合2023年新的ST股票监管政策和相关交易所退市规则,构建了一个包含60余个因子的综合数据集,利用XGBoost模型对股票被标记为ST的风险进行预测。模型表现优异,样本外预测准确率极高,能为投资者提前识别和应对ST风险提供工具和参考。报告强调了财务类因子(如扣非净利润、净资产、PE)在模型中的主导作用,并且揭示了ST风险的季节性特征及样本不平衡带来的挑战。[page::0, 1, 2]

---

一、报告结构与章节分析



1. ST新规介绍


关键论点及内容

  • ST股票定义:特别处理股票,是指财务状况异常或其他风险情形下被交易所采取风险提示措施的上市公司,按情形分别冠以*ST或ST前缀。

- ST新规核心指标包含净资产、扣非前后净利润及主营业务收入等指标的连续负值或者异常,重点监控持续经营能力存疑的企业。
  • 三大交易所(上交所、深交所、北交所)均有详细的交易类和财务类的强制退市规则,规则从成交量、低价持续时间、股东人数、净利润负值等多维度进行细化。

- 明确指出退市风险在四月年报季最为集中,显示年度财务报表披露对ST风险预警的重要性。

逻辑与推理


ST标签的设定基于财务及交易异常,以此作为退市风险的前置警示。报告通过列举三大交易所的细节规则,充分说明了ST设定的规则严谨性和风险监测的全面性。同时,结合历史数据分析,引用月度和年度分布,验证了退市风险的季节性和经济周期性特点。此部分为构建因子和模型提供了规则基础和政策环境支持。

重要数据点

  • 连续三年扣非净利润为负、净资产负数和主营业务收入低于1亿(5000万)为ST重要触发指标。

- 退市风险集中于年报披露后的4月(472条预警),且2020年退市预警最高(122条),显示经济波动对企业财务状况及退市风险的影响。
  • 样本中ST与非ST股票比例极度不平衡,约100:1以上。


图表深度解读

  • 按月ST发生次数柱状图清晰显示4月大幅领先的异常峰值,1月、2月、11月12月处于低位,反应了财务报告披露带来的事件集中度。

- 按年份ST发生次数柱状图示出退市风险2019年后整体上升趋势,尤其是2020年的峰值,与全球疫情影响及经济形势有关。

按月ST发生次数
按年ST发生次数

---

2. XGBoost模型介绍及相关应用


关键论点与内容

  • XGBoost是一种高性能梯度提升树算法,具备并行计算、自动处理缺失值和模型正则化功能,广泛用于分类回归任务。

- 模型目标函数选用binary:logistic以适应ST股票二分类问题,同时采用AUC和召回率等评价指标以处理样本不平衡且对正例重视的情况。
  • 讨论了XGBoost在信用风险预测和股票收益预测的先进应用案例,说明其在金融风险管理和量化投资中的实用性和有效性。

- 报告引入了XGBoost与图神经网络混合模型和XGBoost结合萤火虫算法的组合优化模型,以增强预测性能和优化资产配置。

逻辑与推理


XGBoost模型基于梯度提升树的优势,能够捕捉非线性关系和交互特征,在ST风险预测这种多因子、高维、非线性的问题中具有适用性和优势。通过引用相关文献和模型拓展,展示模型不仅适合预测准确率高,同时对不平衡样本问题有一定的鲁棒性。指标选择基于业务需求,如将召回率放在优先位置,体现了对ST风险的前瞻性防范。

图表深度解读

  • 相关文献所示两阶段混合模型架构图,表示XGBoost负责特征线性化,深度神经网络进行特征关系挖掘,最终提升风险识别能力。

- 投资组合优化模型图示,将股票预测与优化模型合并,体现全流程风险识别与资本配置闭环。

信用风险预测示意图
股票预测与MV投资组合优化模型图

---

3. ST风险预警模型建设与实证分析


3.1 整体框架与数据

  • 原始数据涵盖2010年至今的A股,因子构建依据ST新规及学术文献,涵盖交易、财务、估值、基本面等多维度。

- 样本外预测采用滚动窗口方法更新2020年至2023年10月数据,采用欠采样平衡训练集,避免训练集类别严重失衡导致模型无法识别少数类ST标的。

3.2 因子构建

  • 因子集包含60+个指标,来源于三个方向:ST新规因子(财务及交易类)、学术研究补充因子(盈利、偿债、成长等)、其他基础量价与一致预期因子。

- 因子覆盖面广,能全面反映企业财务健康状况、市场行为及估值风险,从数据源时间切点严格对齐,保证因子质量与时效性。

3.3 样本不平衡问题处理

  • ST样本极度稀缺,正常股与ST股比例大于100:1,直接训练易出偏差。

- 采用欠采样随机抽取多数类样本,保持类别平衡,防止模型偏向多数类。报告明晰欠采样和过采样的原理与优势权衡。

3.4 XGBoost模型训练与参数优化

  • 训练集为2010-2019年,测试集2020年至今。

- 训练采用适度调低树数(100)、深度(7)、并提高正则化(regalpha、lambda,gamma均为8),有效抑制过拟合,确保样本外性能稳定。
  • 损失曲线收敛平稳,训练与测试误差基本同步,显示较好泛化能力。


3.5 因子重要性及决策树分裂路径

  • 核心因子前三依次是:扣非前后净利润孰低值(Minnetprofit)、净资产(Totalequity)、PE(LYR),这三者均为财务稳健性指标,提示盈利和资产质量对ST风险的决定性作用。

- 关键阈值为:净利润少于109万,净资产少于1.74亿元,PE低于5.04,均显著提升ST风险概率。
  • 除三因子外,流动性(6月换手率)、盈利能力(ROE)、交易表现(近20日最低价、连续跌天数)等因子也有影响,但决策优先级低于财务因子。

- 图示三层树结构清晰展示了模型逻辑路径,为财务异常的股票打上风险标签。

XGBoost前三层分裂过程

3.6 样本外测试效果

  • 模型在测试期间保持极高性能,月度AUC平均达到0.997,平均召回率为0.958,说明模型在实际环境下能准确识别出绝大多数ST股票。

- 预测概率分布稳定,无明显波动,增强预测的可靠性。

滚动样本外预测AUC

3.7 最新预测结果与实用价值

  • 基于2023年10月末数据,预测11月ST概率,模型显示仅1只股票(金圆股份)被判定为ST,概率高达98.4%。

- 其他19只股票处于较高预警区域(11%以上),为投资者提供了有价值的风险预警名单。
  • 较高风险概率的股票名单为投资决策及风险管理提供实际操作线索。


---

四、图表整体分析总结


  • ST风险集中出现于年报季(4月),体现财务披露对市场风险认知的影响。

- 估值及财务健康指标(如扣非净利润、净资产、PE)是ST风险预测的关键因子,说明财务基本面仍是判别风险的核心。
  • 样本不平衡性显著,且采取欠采样已有效缓解其影响,证明报告作者对机器学习实务问题有深入理解。

- XGBoost模型表现优异,AUC接近完美,召回率也非常高,验证了模型选择与参数调校的合理性。
  • 因子重要性及决策树示意为模型可解释性提供了支持,增强投资者对模型结果的信任。

- 最新预警结果结合股票列表,为实际投资提供了可操作的风险提示。

---

五、风险因素评估



报告指出主要风险包括:
  • 经济波动风险:全球及国内经济周期、地缘政治局势不稳可能对上市企业财务状况及市场整体风险偏好产生影响,间接影响模型预测的适用性。

- 模型失效风险:模型基于历史数据训练,未来市场环境、监管政策或公司实际经营状态改变,可能使得模型规律不再适用。
  • 过拟合风险:尽管做了正则调节,但仍存在样本外测试时间有限的情况,未来表现不能完全保证。


报告并未针对风险提供具体缓解措施,但从模型调参、欠采样技术即为一定程度的风险控制措施体现。风险提示具有合理的预见性和适度性。[page::29]

---

六、批判性视角反馈


  • 报告对样本不平衡问题的处理采用欠采样,虽保证训练集中少数类信息浓度,但可能导致丢失部分多数类样本信息,若未来ST标准或市场结构变化,模型适应性或受限。

- 模型预测区间重点为2020年至2023年末,长远适用性未验证,应关注未来环境变化是否会引起模型表现波动。
  • 财务因子权重较高,可能使模型对财务报表操纵的企业表现不足,对内部风险事件识别能力有限。

- 交易类因子虽排在后位,但其先发性可能不足以覆盖微观短期风险,模型对高频市场异常反应可能弱于深度学习模型。
  • 估值指标如PE低值作为警示因子有一定滞后性,且不同行业间估值差异会降低通用性,需行业调整。


总体上,报告中对于模型建立、验证和风险识别较为清晰,前瞻性强,但依赖于历史财务数据的限制值得注意。

---

七、结论性综合



本报告系统阐述了基于XGBoost的ST风险预警模型构建过程,整合了丰富的财务及交易因子,深刻理解并利用了2023年ST新规定以及交易所退市规则。通过历史10余年数据训练及2020年后样本外预测,模型成功实现高准确率(AUC=0.997)和高召回率(0.958),显著提高了ST风险的预测能力,尤其在扣非净利润、净资产和PE等财务指标上的重视,精确捕捉了ST风险驱动因子。

图表及数据分析显示,ST风险具有明显季度特征,集中于财务披露季,并在2019年后总体风险呈上升趋势,反映经济波动对市场风险的影响。欠采样技术合理缓解了样本不均衡问题,保障模型训练的公平性和有效性。最新2023年11月风险排名为市场投资者提供了明确的风险预警名单。

风险警示包括经济波动、模型失效及过拟合风险,提示投资者和研究人员应持续关注环境变化对模型的影响。尽管依赖传统财务因子和交易指标,模型的强泛化能力及易解释结构使其具备较强实用价值和推广潜力。

综上,这份基于XGBoost的ST股票风险预警模型报告不仅展示了量化模型在风险管理中的先进实践,也为投资者风险控制提供了科学工具和切实指导。

---

参考标注


该分析报告内容均基于报告文本[page::0-31],图表如上文所列。

报告