“逐鹿”Alpha 专题报告 (十三)——基于openFE 的基本面因子挖掘框架
创建于 更新于
摘要
本报告介绍了一种基于openFE的基本面因子挖掘框架,通过结构化组合三大财务报表数据和基础算子,构建约70万个因子。利用两步筛选法筛选出表现最佳的合成因子,发现金融基本面动量、市值和行业因子最具重要性,估值与成长因子次之,质量因子表现一般。利用这些因子构建的选股模型在回测期间表现稳定,实现年化超额收益21%,夏普比率1.19,策略在中证500和中证1000指数表现较好,沪深300表现一般。后续将结合启发式算法和衍生数据优化模型,并分行业进行差异化因子挖掘 [page::0][page::3][page::4][page::8][page::11][page::12]
速读内容
- openFE框架介绍及核心优势 [page::0][page::2][page::3]
- openFE基于枚举法的Expand-And-Reduce架构,能够高效处理百万级基本面因子(约70万因子)。
- 使用三大报表(资产负债表、损益表、现金流量表)中的数据转为季频,剔除缺失率大于10%的字段,选取重要性排名前15的字段,加上市值、行业和动量共48个基础特征。
- 采用四则运算、同比、环比和横截面排序四类算子构建二阶合成因子,通过设计估值、杠杆、收益、质量、成长五类风格因子结构完成因子扩展。
- 两步筛选法提升因子筛选效率 [page::4]
- 第一轮使用连续二分法(successive halving)在小样本上单因子训练并筛选,保留约1/16因子。
- 第二轮对保留的合成因子与基础因子一同使用多因子LGBM模型,基于gain值计算特征重要性,筛选边际贡献凸显的因子。
- 因子重要性及表现 [page::6][page::9][page::10]
- 价值因子重要性最高,成长次之,质量因子最低。基础因子中,动量、市值和行业因子表现最佳。
- 随着训练时间变化,因子关注逐渐偏向杠杆和盈利因子,显示模型动态适应市场。
- 分组收益率统计显示因子具有良好单调性和显著多头收益。

- 量化选股策略构建及回测结果 [page::7][page::8][page::11]
- 策略使用2020年1月至2022年12月期间,基于近10年月频因子数据,每月滚动训练LGBM模型预测下月收益,股票池为全A股剔除次新股、ST股及低流动性股票,选取得分最高的400只等权买入。
- 回测累计收益91.2%,累计超额收益79.4%,年化超额收益21%,夏普比率1.19,表现稳定且抗风险能力较好。

| 年度 | 累计收益率(%) | 超额收益率(%) |
|-------|--------------|---------------|
| 2020 | 正收益 | 正超额收益 |
| 2021 | 正收益 | 超过20% |
| 2022 | 正收益 | 超过20% |
- 策略在中证500和中证1000指数成分股上的表现优越,而在沪深300成分股上表现一般。



- 未来方向与风险提示 [page::12]
- 拟尝试与启发式算法结合,生成更复杂结构且表现优异的因子。
- 引入基础财务数据的衍生数据,提高因子质量和预测效果。
- 实现分行业、分指数因子挖掘,满足不同细分市场需求。
- 风险包括因子有效性可能因风格切换失效,模型参数及随机性影响,历史数据区间限制等,模型结果不构成投资建议。
深度阅读
证券研究报告深度解析——基于openFE的基本面因子挖掘框架
---
一、元数据及报告概览
报告标题:“逐鹿”Alpha专题报告(十三)——基于openFE的基本面因子挖掘框架
作者:丁鲁明、王超
发布机构:中信建投证券研究所金融工程团队
发布日期:2023年2月17日
研究主题:利用openFE框架对A股市场基本面因子进行挖掘、筛选及构建,搭建起一套系统的基于基本面财务数据的选股模型。
核心论点概述
报告介绍了一种基于枚举法的Expand-And-Reduce框架——openFE,专门用于高效挖掘、筛选基本面因子。通过对三大财务报表数据和基础算子的系统排列组合,共构建近70万个风格多样的因子;再结合两步筛选策略,筛选出各风格下表现最优的合成因子。报告发现,在多因子表现中,动量、市值和行业因子最为重要,随后为估值和成长因子,而质量因子在A股整体表现一般。利用筛选出的因子训练的月频选股模型在过去近三年的回测期内,实现了21%的年化超额收益和1.19的夏普比率,显示策略风险调整后表现良好,具备可操作性。[page::0,2,3,7,11]
---
二、逐章节深度解读
1. 简介与背景(第2页)
因子挖掘是金融工程的核心任务,旨在从庞大的金融数据中提取价值信息,辅助投资决策。报告对现有因子体系(价值、动量、规模、质量、波动率)进行了概述,并指出因子挖掘结合机器学习和统计方法能显著提升效率和效果。
文中对先前应用于因子挖掘的其他两种方法做比较:
- DeepLOB(基于深度学习,效果好但因子不可解释且求导要求高)
- AlphaZero(启发式算法,效率中等,因子解释性一般,无保证全局最优)
相比之下,openFE基于枚举法,因子结构简单,易解释,但面临海量因子检验的计算瓶颈,需优化策略提升效率。此处清晰展现了三种技术路径的优劣与定位。[page::2]
2. OpenFE框架详解(第3-4页)
因子Expand阶段:
- 以三大财报数据(资产负债表—时点数据,损益表和现金流量表—时期数据)为基础,进行了数据清洗,剔除缺失值超过10%的字段。
- 通过LightGBM模型筛选出每报表中最关键的15个因子,共计45个基础特征。
- 追加三大强解释力因子:市值、行业、过去一个月收益率(动量)。
- 构建含45+3=48个基础特征集。
- 采用四则运算、同比(YOY)、环比(QOQ)、横截面排序(CSRank)作为算子进行因子组合。
- 组合产生的因子规模庞大,若暴力枚举二阶因子可能达10亿量级,计算不可承受。
- 因此引入基于实证的因子结构设计,针对估值、杠杆、收益、质量、成长五类因子,设计特定二阶结构,总因子约70万左右。
因子Reduce阶段:
- 采用连续二分法(successive halving)高效筛选因子:初始用小样本训练LightGBM模型评估单因子表现,逐步增加样本、减少因子数量,最终留下约1/16因子(仍在千级以上)。
- 第二步使用多因子模型(LightGBM),对保留下的合成因子和基础因子联合训练,利用特征重要性(gain指标)评估因子边际贡献,最终筛选各风格表现最优的因子。
本阶段从海量因子中找出高效、低冗余的组合,兼顾可解释性与模型性能[page::3,4]。
3. 合成因子筛选结果(第6页)
- 最终保留每种风格下特征重要性排名前10的合成因子,共计50个合成因子。
- 多风格因子重要性表现排序:价值因子最高,成长次之,质量因子最低。
- 基础因子方面,动量、市值、行业因子表现最优,体现市场和行业结构对选股影响突出。[page::6]
4. 因子回测表现(第7-9页)
- 构建基于10个基础因子和50个合成因子的综合选股模型。
- 训练框架:采用2020年1月~2022年12月近3年月频数据,采用滚动训练(训练集9年,测试集1年),模型预测未来1个月收益率。
- 股票池全A股,剔除次新股、ST股、涨跌停及流动性差的股票(日成交金额<500万或换手率<0.02%)。
- 每月等权买入预计得分最高的400只股票。
- 回测结果表现突出:累计收益91.2%、累计超额收益79.4%、年化超额收益21%、夏普比率1.19。
- 策略表现稳定,且均为正超额收益,尤其2021和2022年超额年收益均超过20%。
- 因子的分组收益率显示单调性良好,多头组收益显著,因子有效性得到验证。[page::7,8,9]
5. 不同指数成分股表现(第11页)
- 模型向中证500和中证1000指数成分股应用时表现较好。
- 沪深300指数成分股表现一般。
- 这一结果说明模型和因子在中小市值、中新兴市场表现优异,而在大市值蓝筹股中效果不显著。[page::11]
6. 总结与后续工作展望(第11-12页)
报告总结确认openFE基于基本面数据的因子挖掘在A股市场具有良好表现,尤其动量、市值、行业因子最重要,估值与成长因子表现适中,质量因子一般。
后续改进方向包括:
- 将启发式算法与openFE结合,提高因子复杂度及表现。
- 添加衍生数据丰富基础特征,提高因子有效性。
- 针对不同行业和指数分组挖掘专属基本面因子,提升模型定制化能力。
此处体现了对复杂金融环境和数据结构更深层次的适应与细分挖掘思路。[page::11,12]
7. 风险因素分析(第12页)
报告指出若干模型风险:
- 基于历史统计,因子未来可能因风格切换而失效。
- 模型结果存在随机性,单次运行可能有偏差。
- 历史区间、模型参数、计算资源均影响结果稳定性。
- 模型训练在计算资源不足时可能欠拟合。
- 结论取自历史数据,存在统计误差,不保证未来有效性。
- 重要声明不构成投资建议,投资需谨慎。
对此类机器学习及统计模型的适用局限提供充分提示,显示研究的专业严谨。[page::12]
---
三、图表与表格详细解读
图0:市场表现对比图(第0页)
- 图描绘2016年6月至2017年5月,上证指数与国债指数表现对比。上证指数波动较大且明显走升,国债指数稳定平缓。
- 说明股票市场风险与收益较高,形成选股模型背景环境。[page::0]
表1:因子挖掘方法(第2页)
- 对比了DeepLOB(深度学习)、AlphaZero(启发式算法)、openFE(枚举法)三种因子挖掘方法的优缺点与适用范围。
- openFE优势在于简单结构和高解释性,缺点是计算量大需优化筛选。此表为理解整个框架的技术背景基石。[page::2]
表2:风格因子结构(第4页)
- 展示5类因子(杠杆、收益、质量、估值、成长)的具体结构设计。
- 示范估值类因子采用二阶结构,如净利润+净资产/市值等,借鉴经典指标如PE、ROE,体现因子设计逻辑严谨。
- 表明确因子设计以清晰的财务逻辑和实务因子为基础。[page::4]
表3:连续二分法示意(第4页)
- 说明筛选策略步骤,包含样本量递增、因子数量递减的过程,达到效率与质量平衡。
- 该表架构帮助理解算法复杂度优化机制及筛因子流程。[page::4]
表5:各类风格因子平均重要性(第6页)
- 价值因子重要性最高,成长因子次之,质量因子最低。
- 反映了A股市场因子表现的实际差异。
- 结合基础因子,动量、市值、行业三因子表现最突出,提示市场选股逻辑以规模和趋势为主导。[page::6]
表6:基础因子筛选前十(第7页)
- 罗列10个表现最好的基础因子,尤其突出动量和行业。
- 支撑报告中多个部分所述的基础因子核心作用。[page::7]
表7与表8:策略收益统计及分年度表现(第7页)
- 累计收益冠绝权益市场,超额收益稳定,年化表现良好。
- 分年度数据验证了策略的持续有效性,尤其2021年和2022年表现突出。
- 数字展现模型实力与收益可持续。 [page::7]
图1:策略回测曲线(第8页)
- 展现策略回测期内累计收益总回报及超额回报。
- 图中蓝线为总回报,稳步上升;绿色线为alpha值(右轴),显示策略相对市场持续产生超额收益。
- 红线(WIND全A指数)和紫线(最大回撤)对比突出策略稳健优势。[page::8]
图2-5:因子分组收益及指数分组收益(第9、11页)
- 图2:全市场因子多头组收益远超空头组,因子单调性良好。
- 图3、图4(中证1000和中证500):多头组表现显著,超出中间及空头组,表明模型在中小盘股上更具优势。
- 图5(沪深300):收益分布较为平缓,表现相对弱,诠释模型适用范围差异。[page::9,11]
---
四、估值方法说明
报告核心为因子挖掘与选股模型构建,未直接涉及传统的估值模型(如DCF、P/E倍数法等)估值目标价。因子模型以LightGBM机器学习算法为基础,通过训练预测未来股票收益,因而估值本身隐含在因子和模型预测中。
重要的是,报告用gain为指标在特征筛选时衡量因子边际贡献,确保因子增益可解释且有实质优化模型能力。[page::4]
---
五、风险因素细致评估
报告多角度分析了因子挖掘模型风险,主要围绕历史有效性、随机性、参数敏感、计算资源等方面说明可能存在的潜在失效风险,并提醒投资者注意。整体风险认知周全,符合金融研究的专业要求,且无模糊或忽视风险隐患的情况。[page::12]
---
六、批判性视角与细节剖析
- 方法论层面:openFE优势在于因子可解释性强,但因子结构简单,是否能够捕获更为复杂的市场非线性关系仍有讨论空间。
- 因子设计:将所有因子设计为二阶结构方便解释但可能限制了复杂交互关系的挖掘。未来结合启发式算法明显为可行方向。
- 数据选择:剔除缺失严重的指标可能丢失部分行业特殊有效信息,需权衡实用性和全面性。
- 模型稳定性:报告提及算法随机性及参数敏感性,模型运行时需多次测试以验证稳健性。
- 应用限制:策略在沪深300表现不佳,提示模型适用范围及样本依赖,实际操作需考虑多样化投资环境。
- 统计回测局限:尽管报告有严密回测,未来风格切换、宏观环境变动引起的模型失灵风险依然存在,建议持续动态监控和模型更新。
总体看,报告结构严谨,透明度高,信息完备,方法与结论相符,未见明显逻辑矛盾。[page::2,3,11,12]
---
七、结论性综合总结
本报告系统地介绍并验证了一种基于openFE枚举与筛选框架的基本面因子挖掘方法,在A股市场实证了该方法的有效性。通过三大财报数据构建约70万个因子,再用两阶段LightGBM筛选法挑选出表现最佳的合成因子和基础因子,形成一套解释性强、结构明确的多因子体系。经近三年月频回测,该因子组合驱动的选股模型实现了显著超额收益(21%年化超额收益,夏普比率1.19)且表现稳定,尤以动量、市值、行业因子为核心。
图表数据深入验证了策略的市场适应性和风险调整能力,其中策略收益曲线(图1)和分组收益率(图2-5)表现出因子单调性良好及中小盘股适应性强。模型在不同指数成分股的适用性差异提示了策略应用边界。
报告也充分识别了模型风险与后续改进空间,建议结合启发式算法和衍生财务数据,进一步提升模型表现和适用范围。该研究为A股量化基本面因子体系构建提供了强有力的工程与数学工具支持,具有较高的理论价值和实务应用潜力。
总体评级倾向于积极,展示显著模型优势与进步空间,且成果的严谨性和透明披露足以为专业量化投资团队提供有力参考。[page::0,2,3,4,6,7,8,9,11,12]
---
附:关键图表Markdown引用示范






---
(完)