`

深度专题122: 逐鹿 Alpha 专题报告--基于openFE的基本面因子挖掘框架

创建于 更新于

摘要

本报告基于openFE的Expand-And-Reduce框架,将三大报表数据经过算子组合构建约70万个基本面因子,应用两步筛选法甄别优质因子。核心发现包括动量、市值和行业因子贡献最大,价值因子重要性最高,质量因子表现一般。结合基础及合成因子训练月频选股模型,回测期年化超额收益21%,夏普比率1.19,表现稳健且有效。在不同指数池中策略表现存在差异,模型随机性与数据区间带来潜在风险。[page::0][page::1][page::2][page::5][page::6][page::7][page::8]

速读内容

  • openFE基本框架及因子构建方法 [page::0][page::1][page::2]

- 采用资产负债表、损益表及现金流量表数据,结合基础算子(加减乘除、同比、环比、横截面排序等)构建约70万个二阶基本面合成因子。
- 为防止数据缺失,剔除缺失率超10%字段,基础特征包含45个报表指标及3个额外因子(市值、行业、动量)。
- 因子结构设计仿照经典估值及财务指标,如PE、ROE、杠杆、成长等五大风格因子。
  • openFE高效因子筛选机制 [page::2][page::3]

- 采用两步筛选法:首先使用连续二分法(successive halving)基于小样本逐步扩大到全样本进行单因子LGBM模型训练筛选,因子数量缩减至约1/16。
- 第二步使用多因子LGBM模型训练结合特征重要性排序,计算因子边际贡献,以Gain指标确认最终有效合成因子。
  • 因子重要性及精选因子表现 [page::4][page::6]

- 价值类合成因子平均重要性最高,成长次之,质量因子最低;基础因子中动量、市值和行业排名最优。
- 策略结合10个基础因子与50个合成因子构建月频选股模型,预测未来一个月收益。
  • 选股策略回测表现强劲 [page::5][page::6]


- 回测区间2020年1月至2022年12月,累计收益91.2%,累计超额79.4%,年化超额收益21%,夏普比率1.19。
- 分年度均实现正向超额,2021年和2022年超额收益均超20%。
- 因子组从多头到空头呈现良好单调性,收益率显著差异。
  • 模型特征重要性动态变化及指数池表现差异 [page::6][page::7]

- 2020年1月至2022年11月模型特征排序变动,动量、市值、行业始终重要,成长估值因子份额变化显著,2022年杠杆及盈利因子显著增多。
- 不同指数成分股中,中证500、中证1000策略表现较好,沪深300表现较弱。


  • 风险提示 [page::8]

- 因子表现依赖历史数据,未来可能存在风格切换失效的风险。
- 模型存在随机性,参数及样本区间选择均可能影响结果。
- 计算资源限制可能导致训练不足风险。

深度阅读

深度专题122:《逐鹿 Alpha 专题报告——基于openFE的基本面因子挖掘框架》详尽解析



---

一、元数据与报告概览


  • 报告标题:《逐鹿 Alpha 专题报告(十三) 基于openFE的基本面因子挖掘框架》

- 作者:丁鲁明,王超
  • 发布机构:中信建投证券股份有限公司

- 发布时间:2023年2月17日
  • 主题:基于openFE框架的基本面因子构建与筛选,设计基于基本面数据的量化选股模型


报告核心关注通过openFE(一个基于枚举法的“Expand-And-Reduce”框架)从三大财务报表广泛构建基础与合成基本面因子,并通过两步筛选方法筛选最优因子,利用这些因子训练股票选股模型,实现稳定超额收益。报告的核心结论包括:
  • 构造出约70万个带结构的因子,通过两步筛选提炼顶级合成因子。

- 动量、市值及行业因子表现最优,估值和成长因子次之,质量因子表现相对较低。
  • 基于选出的基础因子与合成因子,模型回测年化超额收益21%,夏普比率1.19,表现稳定优异。[page::0]


---

二、逐章节深度解读



2.1 引言与因子挖掘背景



报告首先由ChatGPT生成了一段因子挖掘的定义与本质说明,强调因子挖掘通过从庞大金融数据中提取解释股票收益的变量(价值、动量、规模、质量、波动率等因子),并结合统计学、机器学习等方法实现稳定的长远超额收益。报告进一步以三种方法区分因子挖掘主流思路:
  • 深度学习(DeepLOB):高效但因子难以解释。

- 启发式算法(AlphaZero):平衡效率与解释性,但可能非全局最优。
  • 枚举法(openFE):生成因子简单易解释,因子量巨大,需优化筛选算法降低复杂度。


为此,openFE采用枚举法生成大量简单因子,侧重可解释性与全面性,然后依靠高效两步筛选提高效率,减小冗余。[page::1]

---

2.2 OpenFE框架



因子扩展(Expand)



基础数据来源:
  • 三大财务报表:资产负债表(时点数据)、利润表与现金流量表(转成季度频率)。

- 初步剔除了缺失率超过10%的字段,最终各报表筛选出15个高重要性字段(共45),并额外加入与股票收益强相关的动量、市值、行业特征,合计48个基础特征。

算子包含:
  • 四则运算(+,-,*,/)

- 同比(YOY)
  • 环比(QOQ)

- 横截面排名(CSRank)

基于基础特征和算子组合,即使只考虑二阶因子,理论上可产出近10^9(10亿)个因子。实际因子设计兼顾结构特征,例如:
  • 估值类:分子为财务指标(净利润、净资产、主营收入等),分母为市值,形成PE、PB、PS等一阶或自行设计的复合二阶因子。

- 杠杆、盈利能力、质量、估值、成长风格按经济学常识构建多类型因子。

最终搭建5种风格类别,二阶合成指标约70万,构成了一个庞大的因子库。[page::2]

因子约简(Reduce)



面对庞大因子索引,openFE设计如下两步筛选步骤:
  1. 连续二分法(Successive Halving)筛选单因子性能

- 在小样本上训练LGBM单因子模型,计算表现;
- 选出表现最好的因子用于更大样本训练;
- 反复迭代,逐步放大样本和收缩因子列表,最终选出约1/16最优因子。
  1. 多因子LGBM模型训练和重要性排序

- 用第一步选出的合成因子及所有48基础特征,构建多因子模型;
- 采用LGBM的gain指标衡量特征重要性,最终得出因子边际贡献。

此外,引入feature boosting思想计算因子边际效应:先利用基础因子预测收益,再加入新因子,测算预测力提升度量因子边际贡献。[page::2-3]

---

2.3 合成因子筛选结果



通过上述方法筛选,每类风格中保留重要性最高的10个因子,总计约50个合成因子。各因子类型在模型中的平均重要性排序为:
  • 价值因子>成长因子>质量因子(质量因子表现相对较弱)

- 基础因子中,动量、市值、行业因子表现突出,被明确赋予较大权重。

这表明价值与成长驱动在当前A股基本面选股中更有效,而质量因子可能受限于A股市场特征。[page::4]

---

2.4 选股模型构建及回测分析



模型整体思路为:
  • 时间区间:2020年1月31日至2022年12月31日(约3年)

- 数据频率:月频
  • 模型训练:每月滚动训练LGBM模型,训练期为过去10年(月频),预测未来1个月收益率

- 股票池:全A股(剔除次新股、ST股、涨跌停、流动性差(日成交金额<500万或换手率<0.02%))
  • 持仓策略:等权买入得分最高的400只股票,月度调仓。


回测表现
  • 累计总收益91.2%

- 累计超额收益79.4%
  • 年化超额收益21%

- 夏普比率1.19
  • 超额最大回撤较低,策略表现稳定


策略在过去3年每年均实现正超额收益,特别是2021年和2022年超额收益均超20%。[page::4-5]

---

2.5 因子单调性与分组收益



模型整体因子分组收益率展示出良好单调性,多头分组收益显著,表明因子有效性且组合稳健。基于模型多次训练的时间窗口,动量、市值、行业因子持续保持顶级重要性。值得关注的是:
  • 2020年1月模型以成长和估值因子为主力

- 2022年11月模型中杠杆与盈利因子的权重有所提升

表明风格因子存在动态变化,体现市场风格轮动特征。[page::6]

---

2.6 不同指数成分股上的模型表现差异



将训练好的模型应用于不同指数(中证1000、中证500、沪深300)后,回测分组收益率表现出现明显分化:
  • 中证500与中证1000中策略表现较好,分组收益单调且明显;

- 沪深300中表现相对一般,分组收益较弱,可能反映大盘股更难通过基本面因子挖掘出显著alpha。

这种差异性暗示基本面因子策略对不同规模或风格的股票效力不同,需针对不同股票池调整模型参数或因子配置。[page::7]

---

2.7 风险因素


  • 风格切换风险:因子基于历史统计,市场风格若发生重大变化,因子可能失效。

- 模型随机性:初始化随机数种子可能导致结果波动,单次运行结果存在偏差。
  • 数据区间选择敏感性:训练数据区间不同,模型表现不同。

- 模型参数依赖性:参数选择对最终结果影响显著。
  • 计算资源要求高:大规模因子生成与训练计算密集,资源受限可能导致欠拟合。

- 统计误差及未来不确定性:报告所有模型基于历史数据,无法保证未来有效性。

报告明确提出不构成投资建议,强调需谨慎评估风险。[page::8]

---

三、图表深度解读



3.1 图1:策略回测收益曲线


  • 内容描述:横轴为时间(2020年1月至2022年12月),纵轴为累计收益及超额表现指标。图中包含总回报、alpha指标、最大回撤及超额最大回撤。

- 数据解读
- 策略累计收益曲线呈显著上升趋势,显示策略整体稳健成长;
- 超额收益线明显高于零线,累计79.4%的超额收益体现alpha生成能力;
- 最大回撤被有效控制,风险敞口合理;
  • 与文本联系:显示模型能适应不同市场阶段,持续稳定生成超额回报,验证回测结果可靠。


[page::5]

---

3.2 图2:全市场因子分组收益率条形图


  • 内容描述:因子收益按照10个分组排序,收益表现自高向低递减。

- 数据解读
- 前几个分组收益显著为正,说明模型的选股能力强;
- 排名9、10分组表现出现负收益,表明因子具有良好区分能力,能有效挑选优质和劣质股票。
  • 与文本联系:体现因子分组收益单调性良好,强化多头因子表现,支持模型的有效选股能力。


[page::6]

---

3.3 图3-5:不同指数样本分组收益率


  • 描述

- 中证1000和中证500均表现出分组收益依次递减的特点,多头组收益显著高;
- 沪深300分组收益无明显单调趋势,表现较弱。
  • 解读

- 模型对中小盘股票的alpha挖掘效果较好;
- 沪深300市场大盘股或许受其他因素影响,简单基本面因子挖掘效果不佳。
  • 文本联系:揭示策略差异化的适用范围,有助于投资者根据标的特点调整策略。






[page::7]

---

四、估值方法分析



报告中并未涉及直接的股票估值定价方法(如DCF、PE、EV/EBITDA倍数法等),但因子构造涵盖多种估值指标(以传统财报数据为基础构建PE、PB等估值类因子),这些因子通过LGBM模型组合成alpha信号。因而当前的估值分析更多体现在多因子方法论层面——
  • 估值类因子作为风格之一,在LGBM特征重要性中表现较好,说明此类因子是有效捕捉股票收益的驱动因素之一;

- 估值因子的构建基于简单算子变换增强解释性,而非黑箱。
  • 利用机器学习模型赋予不同因子权重,不同于单一路径估值模型,更加灵活和数据驱动。


该策略核心为因子挖掘与机器学习实现的组合加权,非传统的市值估值模型。[page::0-4]

---

五、风险因素详解


  • 因子失效风险:因子基于过去历史表现,市场风格的转变可能使因子失去有效性。

- 数据与样本区间风险:不同区间选取或异常样本可能导致回测结果不稳定。
  • 模型随机因素:模型运行含随机初始化,结果挥发性较大需品控。

- 参数敏感性:超参数选取不同可能显著改变结果。
  • 计算资源瓶颈:大规模因子筛选需强大计算能力,资源不足可能导致欠拟合和因子筛选不佳。

- 历史回测局限:所有结果均基于历史,不代表未来表现,投资需谨慎。

报告未强调具体对冲或缓解策略,主要告知风险并警示投资者。

---

六、批判性视角与细微观察


  • 优点:

- 因子构造注重财报数据解释性,避免黑箱,因子数量庞大提升覆盖全面。
- 两步筛选方法有效解决了枚举法带来的计算效率问题。
- 综合对比多种因子风格,系统性强。
  • 潜在局限:

- 因子回测样本仅约3年,时间跨度尚不算长,存在过拟合风险。
- 质量因子表现较差,未深入展开原因及市场机制探讨,存在进一步挖掘空间。
- 未展示因子组合的稳定性检验,如不同时间点因子重要性变化敏感度分析较少。
- 模型复杂度和计算要求较高,实际应用可能受限。
- 对不同指数间表现差异的机制分析不足,未说明为何沪深300效果差异。

整体报告逻辑自洽,方法创新,较好权衡了大规模因子构建与效率筛选的矛盾,但需注意模型的统计稳健性和未来时效风险。

---

七、结论性综合



本文通过中信建投丁鲁明团队的openFE框架,成功构建了一套基于三大报表数据的大规模基本面因子库(约70万个因子),涵盖价值、成长、杠杆、质量、估值等多风格因子类别;利用创新的两步筛选算法(连续二分法加多因子LGBM排序)高效挑选出各类最优的合成因子及表现优异的基础因子,最终选出60个主要因子参与构建证券市场选股模型。

实证回测表明,该模型在A股市场过去近3年区间,可实现年化21%的超额收益和1.19的夏普比率,表现稳定且各年度均产生正超额收益。因子效力以动量、市值、行业为最核心,估值及成长因子次之,质量因子表现相对较弱。模型在中证500与中证1000等中小盘指数表现良好,沪深300大盘表现一般,提示不同指数适应性差异。风险包括因子失效、模型随机性强、历史回测局限及资源需求高。

图表明晰地支持模型收益和因子收益分组的有效性,清楚展示策略在不同市场及区间的稳定表现。总体来看,openFE结合枚举法与机器学习,兼顾因子解释性与挖掘效率,为基本面量化选股提供了强有力的工具与框架。[page::0-8]

---

总体评价



该报告结构严谨,思路清晰,创新性地将枚举法和XGBoost等机器学习技术融合,系统解决了海量因子构建及筛选的核心难题,且对各类因子贡献进行了定量分析,呈现了较强实用价值与理论深度。报告也对模型风险和不足进行了坦诚披露,体现了研究的专业与谨慎,是一份具有参考价值的金融工程研究报告。

报告