机器因子库相对人工因子库的增量
创建于 更新于
摘要
本报告从机器学习的角度,采用遗传规划算法对技术类和财务类因子分别进行挖掘,构建机器因子库,并通过随机森林模型进行Alpha收益率预测,比对机器因子库与传统人工因子库的回测表现。结果表明,遗传规划可挖掘出有效的技术类新因子,叠加后整体组合表现有所改善,但提升不显著;财务类机器因子整体表现略逊于传统财务因子。整体来看,低频因子挖掘的新增量有限,组合收益改善更多依赖因子择时策略 [page::0][page::3][page::13][page::20]
速读内容
- 量化因子挖掘背景及方法综述 [page::0][page::3]
- 国内量化因子库已有较大规模,面临因子增量收益边际递减的问题。
- 应用遗传规划算法从数据驱动角度进行因子挖掘,构建机器因子库,分技术类和财务类因子分别挖掘。
- 采用随机森林模型从机器因子和人工因子库分别预测Alpha收益率,进而进行组合构建回测。

- 技术类因子挖掘细节及效果 [page::5][page::7][page::10][page::13]
- 修改开放源码gplearn包,实现多维面板数据及时间序列运算,支持技术类因子挖掘。
- 叶子变量包含7个基础量价日频数据,节点函数21种(包含元素及截面运算函数),能使用过去最多20天的信息。
- 因子适应度指标为过去三年月均收益率,阈值5%,达到100个有效因子即停止。
- 因子相关性分布与人工技术因子平均低于20%,呈现较强独立性。
- 虽然新机器因子提高了IC、ICIR、组合月均收益(IC约10.1%,ICIR约2.13,多空月均收益约2.97%),且叠加传统技术因子后提升组合表现、降低最大回撤至17.6%,但这些提升在统计意义上并不显著。




- 财务类因子挖掘细节及效果 [page::14][page::16][page::18][page::19]
- 财务数据因季度更新,叶子变量73个财报指标,函数包含15个元素与截面运算函数。
- 适应度阈值设为2%,每次同样挖掘100个有效因子。
- 新因子与传统财务因子相关性不足10%,独立性强。
- 遗传规划挖掘的财务因子整体效果不及传统财务因子,IC、ICIR和多空收益均降低,且叠加传统财务因子后效果同样减弱。
- 同样地,回归正交化后仍表现出一定选股效力,但统计检验表明整体差异不显著。



- 量化Alpha预测模型及组合构建方法 [page::11][page::12]
- 采用随机森林模型对因子库输出的alpha信号进行预测,模型参数采用GridSearch调参,选取maxdepth=5、nestimators=200。
- Alpha分解分为disperson和zscore部分,采用AR(1)模型预测disperson,随机森林预测zscore。
- 每半年重新挖掘并更新因子库,保证样本外有效性。
- 多空组合构建为预测收益率排名前10%多头,后10%空头,考察IC、ICIR和回测收益表现。

- 总结及投资建议 [page::0][page::20]
- 机器学习特别是遗传规划算法,可自动从数据中挖掘大量新因子,构建规模庞大的机器因子库。
- 技术类机器因子能够为现有传统技术因子库提供一定边际收益提升,但统计上不显著。
- 财务类机器因子目前效果尚不及传统财务因子,提升空间有限。
- 在低频量化领域,新因子的增量效应有限,提升Alpha组合表现更关键依赖因子择时策略。
- 风险提示包括量化模型失效及极端市场对模型效果冲击。
深度阅读
机器因子库相对人工因子库的增量——深度分析报告
---
一、元数据与报告概览
报告标题:《因子选股系列研究 之 七十——机器因子库相对人工因子库的增量》
发布机构: 东方证券研究所
发布日期: 2020年9月11日
主要作者: 朱剑涛、刘静涵
研究主题: 探讨基于机器学习的机器因子库相较于人工因子库在Alpha模型中的增量效用,重点在技术类因子与财务类因子的机器因子挖掘与性能比较。
核心论点:
- 国内量化投资发展已形成相当规模的人工Alpha因子库,研究旨在探讨采用机器学习技术(主要是遗传规划算法)挖掘新的低频因子对传统因子库的增量收益贡献。
- 利用遗传规划算法挖掘机器因子,并通过随机森林模型对比机器因子库与人工因子库的预测效果和组合表现。
- 研究分别针对技术类因子和财务类因子进行,因两者特性与表现存在显著差异。
- 结果显示,机器挖掘的技术类因子对传统因子库有一定的提升,但统计显著性不强;财务类机器因子表现不及传统因子。
- 结论指出,在较为成熟的低频因子库基础上,挖掘新因子的边际增益有限,因子择时仍关键。
风险提示: 量化模型可能失效,尤其在极端市场环境下表现不佳,存在收益风险 [page::0]。
---
二、逐节深度解读
1. 机器学习在Alpha模型应用介绍
报告开篇明确量化投资中Alpha模型的两个核心环节:
- Alpha因子库构建
- 传统方法依赖逻辑推理选因子(估值、盈利等),优点是逻辑清晰、理论完善,但因子数受限且可能失效。
- 机器学习方法则从数据出发,使用遗传规划挖掘大量潜在因子,逻辑难解释,但大量因子可贡献独立Alpha,增强组合的稳定性。此法风险为过拟合。
- Alpha预测
- 传统为线性模型,通过因子加权和转为预期收益。
- 机器学习采用随机森林等非线性模型,更能容纳多因子、有效处理多重共线性,提高预测性能。
图1展示Alpha模型框架,流程涵盖因子挖掘、构建、因子分类、加权、Z-score转换至收益预测,随机森林贯穿于Alpha预测环节 [page::3]。
2. 遗传规划算法介绍
报告详细阐述遗传规划(GP)作为机器学习的主力工具:
- 遗传算法GA 模拟生物进化,用二进制串表示问题,通过复制、交换、突变寻找最优解。
- 遗传规划GP 是GA的升级,由程序树表示解空间,支持层次结构和动态可变规模,适合表达复杂的选股因子公式(树形结构),更强大适用因子挖掘问题。
GP挖掘流程包括:初始化种群(随机生成表达式树),计算适应度(基于因子效果),选择优秀个体,进化(交叉、变异等操作),多代循环演进优因子,最终输出适应度最高的公式群 [page::4]。
3. 技术类因子挖掘测试
- 数据和因子表达:
- 股票池剔除ST及上市未满6个月股票,回测期2010.06.30–2020.06.30,预测未来20交易日收益。
- 因子通过修改后的gplearn遗传规划技术挖掘,数据包括7个日频量价指标(开盘价、收盘价、成交量等)。
- 因子表达式为二叉树结构,内部节点为运算函数(加减乘除、截面运算、时间序列滚动运算),叶子为变量或常数,截面函数最大滚动20天数据。
- 适应度指标与参数设置:
- 适应度以过去三年月均因子收益率评价,门槛为IC > 5%视为有效因子。
- 种群规模设为100,进化3代后生成因子,动态更新每半年换新,累计100有效因子后结束当期挖掘。
- 公式复杂度中等,长度约8,深度3层,反映因子运算复杂度适中 [page::5–9]。
- 因子相关性分析:
- 机器因子与传统技术因子(22个,如非流动性、反转、投机因子的代表)相关性低,平均均不足20%,说明机器因子提供较新颖的信息。
- 组合回测与预测方法:
- 使用随机森林进行Alpha收益预测,算法能较好处理多因子共线性和噪声变量。
- 参数调优采用GridSearchCV,最终选择树深度5,树数200。
- 利用过去3年的月度数据并行训练36模型,本月因子输入后平均预测下月收益Z-score。
- 构建多空组合,买入预测收益最高10%股票,卖空最低10%股票,评估IC、ICIR及组合收益表现。
- 结果见图13,机器因子与传统技术类因子相比:
- IC提升至10.11%,ICIR 2.13,月均多空收益2.97%(年化夏普1.5),回撤明显下降;
- 机器因子和人工因子合成后,性能进一步提升,IC 10.41%,回撤由22.34%降至17.6%;
- 统计检验表明增益未达到显著性水平(p >10%),提示效果虽有提升但有限。
4. 财务类因子挖掘测试
- 数据:
- 剔除上市未达标、ST股票及银行非银行行业,2020年6月30日前数据,财报为季报整理至月频,缺失值以前期填补。
- 选用资产负债表25个指标、利润表20个、现金流28个共73个指标。
- 因子表达和参数:
- 因子同为树形结构,但节点函数数量仅15个,常数取值12/24/36对应最长3年财务数据滚动。
- 最外层公式限制为除法或增长率,保证财务指标的可比性。
- 适应度门槛降低为2%,种群规模扩大至1000,进化3代。动态更新每半年,100有效因子中止 [page::14–17]。
- 构造复杂度与相关性:
- 寻得财务因子公式较简单,深度平均仅1层,长度3,表明财务指标适宜简洁表达。
- 机器挖掘因子与传统21财务因子(盈利、成长指标代表)相关性低于10%,提供独特信息 [page::17–18]。
- 组合回测:
- 随机森林预测方法如技术因子,比较机器因子、传统财务因子以及正交后的组合。
- 机器因子整体表现弱于人工因子,IC、ICIR及多空组合收益均有所下降。
- 叠加传统因子后依然下降,差异无统计显著性。
- 正交后机器因子仍有选股效用,但仍不及人工因子表现 [page::19]。
5. 总结与风险提示
- 机器学习技术(遗传规划+随机森林)可大规模挖掘Alpha因子,尤其技术类因子有效性较为明显。
- 技术类机器因子能够为传统因子库带来边际增益,提升组合IC、收益及稳定性,且最大回撤降低,但统计显著性不足。
- 财务类机器因子挖掘受限于数据特性,表现落后传统因子,机器挖掘带来增益微不足道。
- 低频层面新因子的增量有限,因子择时(选取时机)比单纯挖掘新因子的作用更大。
- 风险提醒量化模型基于历史数据,未来有失效风险,尤其市场波动极端时更易失效 [page::20–21]。
---
三、图表深度解读
图1:Alpha模型框架(page=3)
- 该流程图清晰描绘了传统Alpha模型的构建和机器学习辅助的创新流程。
- 传统环节注重逻辑性的因子挖掘和线性加权预测;机器环节基于算法挖掘,随机森林取代线性模型,优化多因子非线性组合,提升预测准确度。
- 该图理论基础和方法论紧密结合,贯穿全文机器因子生成与Alpha预测的基本框架。
图2:公式树示例(page=5)
- 展示了因子表达式的结构化表示,树结构内节点为操作符(如tsdelta、div等),叶子节点为变量与常数,支持递归计算。
- 说明因子不仅为简单统计量,还可以是复杂时间序列与截面函数的复合运算,体现遗传规划的灵活能力。
图6:技术类因子挖掘过程示意(page=7)
- 说明了因子挖掘的循环机制,包括随机种子设定、初始化表达式种群、适应度计算、选择与进化等关键环节,直到获得足够有效因子。
- 体现了动态更新机制,有效防止因子过时,保持样本外因子的新鲜和有效性。
图7:公式进化过程(page=8)
- 展示三代进化过程中,公式平均适应度(因子性能)逐步提升,表达式长度适度下降,说明系统在进化中趋向于更简洁且有效的模型。
- 运算时间增加反映了进化计算复杂度的上升。
图10:技术类机器因子与传统因子相关性分布(page=10)
- 相关性普遍低于20%,表示机器因子提供了高独立性和潜在新的alpha来源,验证挖掘因子的创新性。
图12:随机森林参数调优(page=12)
- 展示树数nestimators和树深max_depth对模型性能的影响,性能趋于平稳时选择临界点,体现参数选择的科学性和效率。
图13:技术类因子库效果对比(page=13)
- 结合IC、ICIR、多空收益、夏普比及最大回撤五个指标,机器因子较人工因子均有所改善,尤其回撤降低明显,释放出优化风险收益特性的信息。
图17:财务类因子挖掘过程示意(page=16)
- 与技术类图6类似,其规模更大(种群1000),适应度门槛更低,但算法流程保持一致,展示一致性和科学挖掘思路。
图20:财务机器因子与传统财务因子相关性(page=18)
- 相关度极低(10%以下),反映机器因子与现有盈利、成长指标信息差异大,但这并未实质转化为预测优势。
图21:财务类因子库效果对比(page=20)
- 机器因子表现落后传统因子,IC、ICIR和多空组合收益均减少,且差异无统计显著,提示财务因子机器挖掘效果不佳。
---
四、估值分析
本报告并非针对某一公司或板块的投资估值,而是因子库增量效应的量化研究,主要侧重因子表现和模型预测效用,没有直接提供估值模型或具体目标价。因此无相关估值分析段落。
---
五、风险因素评估
- 量化模型失效风险:基于历史数据构建的因子和预测模型可能失去过去的有效性,尤其在市场结构发生变化时。
- 极端市场环境风险:爆发性或异常市场条件可能导致模型预测偏离实际,进而引致组合收益亏损。
- 报告未详细描述缓解策略,仅提示投资者持续关注模型表现及市场状况 [page::21]。
---
六、批判性视角与细微差别
- 事实陈述中立且严谨,报告明确给出了机器因子增量有限且财务因子挖掘效果不佳的负面结论,显示客观务实态度,避免盲目吹捧机器学习的效果。
- 但统计显著性不足的说明表明,提升虽有却属边际,样本或算法设置的偏差可能影响判断,报告中强调“动态更新”和“样本外表现”来降低过拟合,此为对机器学习风险的理性应对。
- 对于财务因子的简化表达与性质导致机器学习难有突出表现的分析合理,同时体现了数据特性对算法适配的重要性。
- 报告对比分析清晰,提出了机器挖掘因子与传统因子低相关性的观察,但未深入探讨未来可能的改进空间,如融合更丰富数据集或深度学习尝试。
- 可能存在的细微之处是,正交处理引发因子效果变化,报告提示“一对多回归正交并不能完全剔除原信息”,暗示仍有待探索的因子正交方法,但未详细介入研究。
---
七、结论性综合
本报告全面系统地运用了遗传规划算法结合随机森林模型,从技术类和财务类两个因子维度,对机器挖掘因子库与传统人工因子库的整体预期收益效能进行了严谨量化测试。
- 技术类因子挖掘
- 机器学习挖掘出的技术类因子,独立于传统因子,表现出较高的新颖性和低相关性。
- 通过随机森林非线性模型训练后,机器因子库相比传统技术因子具有一定的IC、ICIR以及月均多空组合收益的提升,同时风险(最大回撤)明显下降,显示机器因子对技术因子库的增量效用。
- 不过,这种提升未达到统计显著性水平,说明增量收益处于边际状态。
- 财务类因子挖掘
- 机器因子与财务报表数据本身属性相关,公式较为简单,与传统财务指标相关性低,但挖掘效果不及传统因子,增量收益非常有限且无统计显著性。
- 机器因子叠加或正交后仍未能超越传统因子表现,反映传统财务因子可能已较为充分提炼了财务信息。
- 综合判断
- 在成熟的低频因子库环境中,挖掘新的有效因子成本高且收益有限。
- 因此,增厚组合收益的关键更多依赖于因子择时,而非单纯不断机械挖掘新因子。
- 报告采用动态更新机制、随机森林模型调优及详细因子相关性分析,方法严谨,结果可信。
- 风险方面量化模型失效及极端市场环境影响仍需重点关注。
整体来看,本报告为量化投资中的Alpha因子挖掘实践指明了现实路径和局限,同时准确传递了机器学习技术在因子研究中的应用价值与局限性。特别是在技术类因子维度,机器学习方法具备一定潜力,值得进一步关注与探索。
---
参考图表演示
- Alpha模型框架展示了因子构造与预测流程核心(图1,page=3)
- 公式树样例体现因子表达复杂度(图2,page=5)
- 技术类机器因子与传统因子相关性低,创新性强(图10,page=10)
- 技术因子组合性能略优传统因子,回撤显著降低(图13,page=13)
- 财务机器因子复杂度低且绩效弱于传统因子(图18,page=17;图21,page=20)
---
总结: 本报告结合遗传规划和随机森林模型系统分析机器因子库对人工因子库的增量,证实技术类机器因子的适度增强但财务类因子表现受限,强调低频因子挖掘的边际递减和因子择时的重要性,为量化策略的实务设计和改进提供了重要实证依据。[page::0,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]