`

“逐鹿”Alpha 专题报告 (十三)——基于openFE 的基本面因子挖掘框架

创建于 更新于

摘要

本报告介绍了基于openFE框架的基本面因子挖掘方法,通过对三大财务报表数据进行结构化排列组合,构建出约70万个合成因子,并采用两步筛选法选出表现优异的因子。实证显示动量、市值和行业因子最为重要,估值及成长因子表现较好,质量因子表现一般。基于精选因子构建的月频LGBM选股模型,在回测区间实现年化超额收益21%,夏普比率1.19,且策略在中证500和中证1000指数成分股中表现优异[page::0][page::3][page::6][page::8][page::11].

速读内容


基于 openFE 的因子挖掘框架介绍 [page::0][page::3]

  • openFE是一种基于枚举法的Expand-And-Reduce框架,适合处理超大规模基础财务因子组合(约70万个因子)。

- 通过三大报表数据(资产负债表、损益表、现金流量表)及市值、行业、动量因子构建初始45个基础特征。
  • 采用四则运算、同比(YOY)、环比(QOQ)及横截面排序(CSRank)等算子生成因子。

- 因子结构简洁,具备较好的可解释性,适合基本面量化研究。

openFE 因子筛选方法和结果 [page::4][page::6]

  • 首步使用连续二分法(successive halving)进行样本内单因子LGBM检验,剔除表现不佳因子,保留约1/16。

- 第二步多因子LGBM训练及特征重要性排序,采用gain指标评估因子边际贡献,剔除高相关因子。
  • 最终选出各风格表现最优的合成因子及10个基础因子组成有效因子池。

- 风格因子平均重要性以价值因子最高(43.13),其次成长(20.65)和杠杆(16.14),质量因子最低(7.09)。
  • 其中动量、市值、行业因子为基础因子中表现最优。


量化选股模型构建及回测表现 [page::7][page::8]

  • 利用10个基础因子及50个合成因子,构建月频滚动训练LGBM选股模型。

- 训练数据覆盖过去10年月频因子,覆盖全A股,剔除次新股、ST股及流动性差股票。
  • 单次调仓买入排名前400只股票,采用等权策略。

- 回测时间区间为2020年1月31日至2022年12月31日。
  • 累计收益91.2%,累计超额收益79.4%,年化收益24.91%,年化超额收益21%,夏普比率1.19,最大回撤20.52%。

- 各年度均实现正超额收益,2021年超额收益最高达29.18%。



因子表现分组及重要性变化分析 [page::9][page::10]

  • 全市场因子分组收益单调性良好,多头组收益显著。

- 2020年与2022年两期模型特征重要性均以动量、总市值、行业为首,估值与成长因子次之,2022年杠杆及盈利因子成分增多。
  • 重要性的稳定性反映因子效果持续性较好。


| 风格因子 | 平均特征重要性 |
| -------- | -------------- |
| 价值因子 | 43.13 |
| 成长因子 | 20.65 |
| 杠杆因子 | 16.14 |
| 盈利因子 | 12.67 |
| 质量因子 | 7.09 |

不同指数成分股策略表现差异 [page::11]

  • 策略在中证500和中证1000成分股中表现优异,多头组收益显著。

- 在沪深300成分股中,模型表现一般,因子优势体现较弱。





后续改进与风险提示 [page::12]

  • 未来将尝试结合启发式算法优化因子结构及表现。

- 引入衍生数据丰富基础变量,提高因子有效性。
  • 分行业和指数定制化开发基本面因子,提高模型适用性。

- 主要风险包括因子风格切换、模型随机性、参数选择和计算资源限制,历史表现不代表未来。

深度阅读

证券研究报告深度分析报告



---

一、元数据与概览



报告标题: “逐鹿”Alpha 专题报告 (十三)——基于openFE 的基本面因子挖掘框架
作者: 丁鲁明,王超
发布机构: 中信建投证券研究所
发布日期: 2023年2月17日
主题: 基于openFE框架的基本面因子挖掘与选股模型构建,聚焦A股市场基本面因子体系的开发与应用。

---

核心论点:
本报告引入了一种基于openFE(枚举法的Expand-And-Reduce)框架的基本面因子挖掘方法,通过对A股上市公司三大财务报表数据进行结构化组合,构建约70万个基本面风格因子,采用两步筛选法提炼重要性最高的合成因子。报告发现,动量、市值与行业因子是A股市场中最重要的因子,其次为估值和成长因子,质量因子表现较弱。基于筛选出的因子训练的月频选股模型,在近三年的回测中表现稳定,累计收益率91.2%,年化超额收益21%,夏普比率1.19。报告明确提出openFE框架在基本面因子挖掘上的高效性与可解释性,展示其在量化投资中的实用价值[page::0,2,3,7,8,11].

---

二、逐节深度解读



2.1 简介



因子挖掘作为量化投资的核心技术,旨在从海量数据中提炼出具有投资价值的特征。因子包括价值、动量、规模、质量和波动率等。报告简述了因子挖掘过程中涉及的数据预处理、评估、回测,强调结合统计学与计算机科学以提升因子投资效果。介绍了三种代表性因子挖掘技术:DeepLOB(深度学习)、AlphaZero(启发式算法)和openFE(枚举法),其中openFE适合中低频因子、因子复杂度较低且可解释性最佳,但效率最低。表1系统对比三者优劣,凸显openFE在因子可解释性和生成因子数量上的优势,但效率受限需加速筛选手段以提升实用性[page::2].

---

2.2 OpenFE 框架



openFE基于基础财务特征(来自资产负债表、利润表和现金流量表共计100余个字段,经缺失值剔除和特征重要性筛选后保留每张报表15个关键因子),再加上市值、行业、近期动量因子,总计48基础因子。利用简单算子(四则运算、同比YOY、环比QOQ、横截面排序CSRank)对基础因子进行结构化组合,构建五大基本面风格因子系列:杠杆、收益、质量、估值、成长类因子。因子结构设计重点在于兼顾金融学典型财务比率形态(如PE、ROE的推广版本),形成了约70万个二阶合成因子集合。

为克服单因子大规模检验效率低的问题,openFE引入两阶段筛选策略:
  • 第一阶段使用“连续二分法”(successive halving)通过分块样本对因子进行单因子LGBM模型训练,以高效剔除表现较差的约94%因子。

- 第二阶段利用多因子LGBM模型对剩余因子及基础特征进行联合训练,通过计算特征重要性的增量贡献(gain),最终提炼出每类风格重要性最高的10个合成因子[page::3,4].

---

2.3 合成因子详解



合成因子列表详尽,包含成长、价值、盈利、质量、杠杆五大风格,均由CSRank横截面排序算子和基本面字段通过加权线性组合构成,兼顾环比、同比的时序变动形态。成长因子强调收入、利润及权益的季比/年同比增长;价值因子侧重净利润与管理费用等指标对总市值比率;质量因子结合利润与现金流指标;杠杆因子体现应收应付款等负债权益关系。

表5显示不同风格因子平均特征重要性中价值因子最高(43.13),成长其次(20.65),质量因子最低(7.09)。基础因子中动量、市值、行业因子表现尤为突出,支撑其在模型中的核心地位[page::5,6,7].

---

2.4 因子回测与应用表现



选股模型由50个合成因子和10个基础因子组成,采用滚动训练方式(月频),预测目标为未来1个月收益率,训练窗口10年,测试集1年。股票池涵盖全A股并剔除次新、ST、涨跌停及换手率低流动性差的股票。调仓时等权买入评分最高的400只股票。

模型回测表现图(图1)显示策略累计收益91.2%,超额收益79.4%,超额年化21%,夏普比率1.19,最大回撤20.52%,超额最大回撤16.79%。按年度看,2020年收益30.46%,2021年38.35%,2022年5.95%,均为正超额收益,且2021及2022年超额收益均超20%[page::7,8].

因子分组收益率显示因子的单调性良好,多头组收益显著(图2),表明因子信号清晰有效。在不同时间点(2020年1月、2022年11月)的模型特征重要性比较(表9、表10),动量、市值、行业仍为主导因子;2022年模型中杠杆、盈利因子权重提升,显示因子风格及市场偏好存在动态变化。

模型应用于不同指数成分股后表现分化:中证500和中证1000中选股效果优异,多头收益明显;沪深300中表现较为平稳但不突出(图3、4、5),表现差异可能源于指数组构成及行业权重差异[page::9,10,11].

---

2.5 总结与讨论



总结部分重申openFE在大规模因子枚举及筛选中的效率与可解释性优势,基于其筛选的合成因子及基础因子搭建选股模型展示了明显的正向超额收益能力(年化超额21%,夏普1.19),核心因子为动量、市值、行业,次级表现为估值、成长因子,质量因子表现一般。策略在全市场表现优秀,在中证500/1000表现较好,沪深300相对逊色。未来改进方向包括结合启发式算法生成更复杂结构因子、引入衍生数据丰富基础特征、以及针对行业或指数进行定制化因子挖掘[page::11,12].

---

2.6 风险因素



报告提示因子基于历史数据,由于市场风格切换存在因子失效风险。
模型结果存在随机性(如初始化随机种子差异)、样本选择和参数设置的敏感性,可能导致结果波动。
模型计算资源需求较高,资源不足会令模型欠拟合。
数据本身的统计误差也可能导致模型效果与实际偏差。
强调模型仅供参考,不构成投资建议,投资者应谨慎对待[page::12].

---

三、图表深度解读



图0(市场表现)



展示2016年6月至2017年5月间上证指数与国债指数走势,藉此背景说明基础市场环境。指数显示上证波动较大,国债指数稳定,强调多因子策略在震荡环境中的超额收益潜力[page::0].

---

表1(因子挖掘方法对比表)



系统对比了深度学习(DeepLOB)、启发式算法(AlphaZero)和枚举法(openFE)在因子生成数量、适用频率、因子复杂度和可解释性上的差异。说明openFE适合中低频、可解释因子生成,但效率最慢,需要创新策略提升筛选效率[page::2].

---

表2(风格因子结构)



总结五类风格因子结构,用CSRank算子结合净利润、资产负债表等财务变量构建分子分母比例型或加权组合型因子,体现财务报表数据典型经济学意义[page::4].

---

表3(连续二分法)



阐述逐步加大样本量同时缩减特征空间的快速筛选机制,以提升70万个因子的检验效率,策略核心为准确剔除无效因子[page::4].

---

表5(风格因子平均特征重要性)



价值因子43.13的平均重要性明显领先,表明估值信息对A股股价具有较强解释力;成长、杠杆因子次之,质量因子贡献较少[page::6].

---

表6(基础因子列表)



列举10个表现优异的基础因子,包括总市值、行业和净利润等,确认市值、市盈率、行业划分的核心作用[page::7].

---

图1(策略回测)



展示2020年至2022年底的策略累计收益及超额收益走势,蓝色曲线(总回报)稳步上升,绿色曲线(alpha)显示持续超额,红色(WIND全A基准)和紫色(最大回撤)辅助展示策略安全边际和风险水平。夏普比率1.19表明风险调整下的良好表现[page::8].

---

图2(全市场分组收益率)



柱状图清晰展示因子分组收益的梯度递减效应,最高组显著为正,最低组为负,证明因子具有良好单调性支持选股有效性[page::9].

---

表9&10(2020年1月及2022年11月模型特征重要性)



两时间点特征重要性对比揭示市场因子结构动态演变,如动量因子的相对重要性提升,2022年杠杆和盈利类因子权重增加,反映市场阶段和风格变化[page::9,10].

---

图3、4、5(不同指数分组收益率)



三个指数的分组收益率展示模型在指数层面的表现差异,中证1000和500因子信号更明显,沪深300较弱,指向中小盘策略更有效[page::11].

---

四、估值分析



报告未涉及具体企业估值,而是对因子及因子模型进行系统挖掘和回测,其价值体现在因子组合的alpha收益和风险特征。采用的LGBM多因子模型为非线性组合预测工具,输入为基础及合成因子集合,以未来1个月收益率作为目标变量,无明确贴现等传统估值模型,重心为金融工程智能因子挖掘与性能优化。

关键假设包括因子可解释性、因子收益稳定性(历史映射未来)、市场风格无剧烈切换、标的样本完整性及有效性。

---

五、风险因素评估


  • 历史依赖性风险: 因子基于历史统计,未来市场环境风格调整可能导致因子失效,特别是质量因子表现一般就显现其局限。

- 模型不确定性: 训练过程随机性和参数设定不确定可能导致输出波动。
  • 样本及时间区间选择风险: 不同数据区间可能带来性能差异,结果易受起止点影响。

- 计算资源限制: 计算力不足导致模型欠拟合影响因子筛选结果。
  • 统计误差风险: 财务报表数据存在一定误差,影响因子计算精度。

- 投资警示: 报告明确该策略为研究参考,不做投资建议,需结合具体投资环境谨慎使用。[page::12].

报告未提供针对风险的直接缓释策略,但后续改进方向暗示通过算法融合、行业定制化等方式提升因子稳定性。

---

六、审慎视角与细微差别



报告坚持专业严谨,在因子挖掘方面强调openFE枚举法的可解释性和对大规模因子筛选的效率权衡,展现了以金融工程为核心的因子投资实践。
  • 潜在偏见:报告较为乐观地评价年化超额和夏普比率,未详细披露因子挖掘和建模过程中的过拟合风险。

- 复杂度权衡:因子设计以简单算子构造为主,忽略了更高阶非线性因子的挖掘,可能限制模型表达力。
  • 样本期限:回测跨度虽近三年,但中长期稳定性待验证。

- 指数适用性:在沪深300表现一般,提示策略局限于中小市值或特定行业环境。
  • 缺少宏观环境考量:报告未结合宏观经济波动或政策风险解读因子表现。

- 风险识别充分,但对应策略欠缺,未来研究可加强风险管控框架。

综上,报告技术路径和实证表现详实可靠,但从学术严谨角度,仍需关注模型泛化和实际落地的多维度挑战。

---

七、结论性综合



本报告系统开发并验证了基于openFE枚举框架的基本面因子挖掘体系,通过对三大财务报表数据及扩展算子的结构化组合,构建了大规模风格多样的基本面因子群,借助两阶段筛选机制有效提炼出关键合成因子。实证显示:
  • 因子权重与市场解读: 动量、市值、行业因子为最主要动力,次级为估值和成长因子,质量因子表现不足,反映A股基本面投资的现实结构。

- 模型表现优异: 近3年的月频多因子模型选股策略累计收益高达91.2%,年化超额21%,夏普比率1.19,最大回撤20.52%,风险调整收益水平优异。
  • 结构优势: openFE的枚举法兼顾因子可解释性与数量优势,配合连续二分法提升检验效率,为基本面因子研究提供了可复制框架。

- 应用差异化: 策略在中证500及1000指数表现稳定优异,沪深300表现一般,提示策略适用范围和行业市值规模差异显著。
  • 风险与未来方向: 历史数据依赖、因子风格变动、计算资源需求等为主要风险,未来将借助启发式算法融合和衍生数据引入,提升因子深度和行业定制化能力。


本报告展示了一种高效且可操作的量化基本面因子发掘及应用策略,具有重要的理论和现实价值,但作为历史回测结果,必须放在严格风险管理和策略动态调整框架内审视。

---

附录:重要图表索引



| 图(表)编号 | 内容描述 | 页码 |
| -------- | -------- | ----- |
| 图0 | 2016-2017年上证指数与国债指数走势 | 0 |
| 表1 | 因子挖掘方法三类技术对比 | 2 |
| 表2 | 五类风格因子结构及构成 | 4 |
| 表3 | 连续二分法筛选机制 | 4 |
| 表4 | 关键合成因子详单 | 5-6 |
| 表5 | 风格因子平均特征重要性 | 6 |
| 表6 | 10个核心基础因子列表 | 7 |
| 图1 | 多因子选股策略回测表现 | 8 |
| 图2 | 因子分组收益率展示 | 9 |
| 表9、10 | 2020年1月及2022年11月特征重要性对比 | 9-10 |
| 图3-5 | 中证1000、500、沪深300分组收益率 | 11 |

---

以上为基于报告文本的详尽解读、数据分析及视角审慎评估,严格依照报告内容进行溯源和解释,全面覆盖了报告所有核心论点、数据展示及技术细节,符合专业金融分析师的深度报告阅读和再加工标准。

报告