基于基因表达式规划的价量因子挖掘
创建于 更新于
摘要
本报告基于基因表达式规划(GEP)算法,提出了一套系统的价量因子自动挖掘方法,结合ICIR、多头超额收益和分组收益单调性指标筛选有效因子,最终获得15个相关性较低且选股能力稳定的价量因子。将这些因子与传统基本面因子结合,可构建多头组合以及中证500指数增强组合,实现了年化收益超40%的多头组合和超28%的增强组合,且能够持续跑赢中证500指数,展现了因子挖掘及复合的显著增益 [page::0][page::3][page::9][page::15][page::19][page::21][page::23]
速读内容
- 基因表达式规划(GEP)通过模仿生物进化过程中的基因变异与重组,构建价量因子表达式树,从而实现自动化价量因子挖掘 [page::4][page::5][page::7]

- 因子适应度指标设计创新:结合因子ICIR稳定性、多头超额收益信息比以及分组超额收益的单调性指标进行综合评价,避免仅凭ICIR筛选出多头无超额收益的因子 [page::9][page::10][page::11]


- 基因表达式规划挖掘因子流程:包括定义函数符和终结符,利用适应度指标驱动遗传迭代,缓存结果避免重复计算,并通过因子相关性分块剔除高相关因子,最终筛选出15个相关性较低的有效价量因子 [page::11][page::12]


- 挖掘出的代表性价量因子Alpha1至Alpha5均表现出显著且单调的十档超额收益,多头组合周度超额收益介于0.15%至0.33%之间,且长期稳定,IC均值多为正或负方向显著,年化ICIR均多超过3 [page::12][page::13][page::14][page::15]



- 复合因子通过对称正交方法剔除因子间共线性,滚动ICIR加权后表现更好,在30组分档中均表现出强烈的收益单调性,周度多头超额收益高达0.53%,年化ICIR达到8.463,表现优于单因子[page::15][page::16]

- 因子应用实证显示:
- 周频调仓的多头Top50等权组合年化收益43.3%,年化超额中证500达41.6%,波动率低,信息比4.94,长期跑赢中证500指数
- 周频中证500指数增强组合年化超额收益28.4%,信息比5.21,月度胜率逾93%
- 日频中证500指数增强组合表现更优,年化超额收益32.9%,信息比5.72,月度胜率94.17%
图示多头组合净值与指数增强组合净值走势均显示带挖掘因子的组合表现显著优于不带因子组合 [page::18][page::19][page::20][page::21][page::22]



- 因子标准化流程:包括缺失值填充、中位数绝对偏差去极值、Z-score标准化,以及市值与行业哑变量中性化,确保因子公允反映选股信息,并用于组合构建 [page::17]
- 组合优化方面,周频及日频指数增强组合通过线性规划控制风格、行业暴露、个股权重及换手率,满足实际交易需求 [page::20][page::21]
深度阅读
报告深度分析解读:《基因表达式规划下的价量因子挖掘》
---
一、元数据与报告概览
报告标题:《基因表达式规划下的价量因子挖掘》
发布机构:天风证券研究所
发布日期:2020年2月20日
主题领域:基于遗传规划算法对价量因子进行自动化挖掘,结合传统基本面因子进行指数增强投资组合构建与实证分析。
核心论点与目标:
本报告聚焦于利用基因表达式规划(GEP)算法挖掘具有稳定选股能力的价量因子,提升因子挖掘效率,克服人工挖掘局限性。结合对挖掘因子的适应度指标(ICIR、多头超额收益、分组收益单调性)设置,筛选出稳健有效的因子。通过融合传统基本面因子,构建多头和中证500指数增强组合,验证挖掘因子为实际投资组合带来的显著超额收益。整体观点明确,即GEP赋能因子挖掘是多因子模型持续改进的重要路径,所得因子提升选股能力和组合收益。
---
二、逐章深度解读
1. 引言
报告开篇回顾了作者此前《短周期视角下的指数增强策略》研究背景,强调短周期价量因子构建的重要性及自动化挖掘因子的必要性。
介绍了自动化因子挖掘的三类主流方法:
- 暴力多项式组合法(例如 sklearn 中 PolynomialFeatures),组合大量特征,但效率低,存在大量无效因子。
- 启发式算法,特别是基因表达式规划(GEP),通过进化思想优化因子表达式,依赖有效的变异与选择机制。
- 机器学习方法(决策树、神经网络等),如Facebook使用GBDT提取特征,实现复杂的因子提取。
结论是选择基因表达式规划作为因子挖掘的核心算法,其兼备遗传算法的速度和遗传规划的表达能力。
2. 遗传规划与基因表达式规划(GEP)
2.1 遗传规划原理
- 介绍遗传规划的基本流程(随机种群初始化、适应度计算、精英保留、选择、交叉、变异等),强调进化可不断提升适应度,寻找最优因子表达式。
- 说明了遗传规划的衍生方法,特别强调基因表达式规划的优势:线性定长编码结合非线性树结构的表达,适应度评估和基因变异较传统遗传编码更有效。
2.2 基因表达式规划的细节
- 因子表示:基因由终结符(价格、成交量等变量或常数)和函数符(如 +, log 等运算符)构成,基因组由头部(可包含函数符和终结符)和尾部(仅终结符)组成,保证表达式合法且进化稳定。
- 通过将基因组解码成表达式树,实现复杂因子构造。非编码区为遗传变异提供支持而不直接参与表达式计算。
- 适应度评估:采用因子IC(信息系数)、ICIR(IC的均值与标准差的比值)、多头超额收益与分组收益单调性等指标计算,聚焦因子预测未来收益的稳定性和有效性。
- 演化算子:选择(轮盘赌或锦标赛)、复制、变异(保持基因合法)、插串(特有算子,用于基因串中嵌入子串)、重组(单点或双点交换)等。
- 提供了多语言开源实现,实际采用Python的geppy包。
2.3 GEP挖掘价量因子的实施流程
- 指定股票池(全A股,过滤流动性差股票),数据区间及预测目标(未来5日收益率)。
- 因子适应度使用自定义指标,结合ICIR、多头收益稳定性及分组收益单调性,以避免选入虽然ICIR显著但单调性差的因子(图表5-6展示了单调性差的典型例子)。
- 设计了加权综合适应度指标:
\[
fitness = \sqrt{\frac{|ICIR|}{5}} \times long\IR \times monotonicity
\]
其中longIR为多头组合超额收益的信息比,monotonicity为分组收益单调性指标。
- 采用进化提早终止策略与缓存机制避免计算重复因子。
- 利用分块分阶段相关性剔除法,过滤高度相关因子,提高多样性和稳定性(图8展示流程)。
3. 典型因子示例与复合因子构造
- 挖掘超过2万个因子,最终筛选出15个低相关有效因子。
- 详细展示5个典型因子Alpha1至Alpha5:
- 各因子的表达式、十组分档超额收益表现均显示多头明显且单调的收益提升(图9、11、13、15、17)。
- 因子周度IC稳定,年度ICIR均显著多在3以上(表5-9),显示其预测能力稳健。
- 对低相关因子进行对称正交处理消除共线性问题,保持因子间独立性和解释能力不变,最终构建复合因子。
- 复合因子分30组收益呈现良好的单调递增特征,周度IC均值高达0.0668,年化ICIR达8.463(图19-20,表10)。
4. 周频因子选股实证
- 因子库包含机器挖掘价量因子及传统基本面因子,对因子进行了完善预处理:缺失值填充、MAD去极值、Z-score标准化、行业和市值中性化处理。
- 复合因子带挖掘因子后,周度累计IC较无挖掘因子组合持续显著提升(图21,表12)。
- 多头Top50组合回测参数严谨,考虑交易成本、流动性限制、调仓顺序及频率等(周频调仓):
- 年化收益43.3%,对比中证500指数年化超额41.6%,最大回撤-10.4%,信息比4.94。周均换手率47%。
- 多头组合净值持续跑赢基准,且带挖掘因子的组合表现优于不带(图22-23,表13)。
- 周频中证500指数增强组合构建采用线性规划解决多项约束(行业、风格、个股权重、换手率等),且约束全面细致,确保组合实际交易可行性:
- 超额年化收益28.4%,信息比5.21,最大回撤-4.17%,月胜率93.33%。
- 净值曲线稳定优于基准,带挖掘因子组合明显优于无挖掘因子组合(图24-25,表14)。
- 日频中证500指数增强组合进一步提高调仓频率,无论交易成本还是约束设置均保持合理(换手率控制10%),且选股效果稳定且超越基准:
- 超额年化收益32.9%,信息比5.72,最大回撤-3.09%,月胜率94.17%(图26,表15)。
---
三、图表深度解读
本报告图表配合文字分析清晰展示了因子选股与组合业绩逻辑。
- 图5-6体现单纯ICIR筛选易选入单调性差因子,体现单指标考核的局限性。
- 图9、11、13、15、17典型因子表现,十组分档超额收益明显递增且单周期风险控制较好,且右侧IC曲线显示长期稳定性。
- 图19-20复合因子通过正交处理后的优异表现,IC累积值与单因子相比显著提升,验证因子组合优势。
- 图21带/不带挖掘因子复合因子组合IC累积比较,新增因子带来明显业绩提升空间。
- 图22-23和图24-25多头与指数增强组合净值曲线对比,清晰体现带挖掘因子的组合累计超额收益、波动性优势及稳定超越基准。
- 图26日频指数增强的纳入,展示了更高频调仓的选股效果带来的收益增加,表明因子频率及组合构建的灵活性。
---
四、估值分析
本报告不直接涉及公司估值分析,而是聚焦因子挖掘与量化选股组合构建。但在4.2节股票组合构建采用线性规划模型优化持仓权重,其中的收益预期计算依赖基于多因子模型得出的股票得分。约束模型细致,最大化收益的同时控制行业暴露和市值暴露,交易成本被纳入计算,反映实际交易执行的综合估值优化策略。
---
五、风险因素评估
报告在首页明确风险提示:
- 市场系统性风险:任何宏观突发事件或整体市场下跌都可能影响组合表现。
- 有效因子变动风险:因子有效性可能随市场环境变动而减弱或失效,影响选股效果。
报告中没有详细展开缓解措施,但通过分组单调性检验、多指标综合适应度及正交处理,提升了因子的泛化能力和稳定性。此外通过风格、行业中性化和多约束线性优化减少组合单一风险敞口,部分抵御系统风险。
---
六、批判性视角与细微差别
- 自动化挖掘虽效率高,但仍依赖输入终结符与函数符的设计,其空间受到一定限制,算法的搜索能力依赖初始设计。
- 因子适应度评估综合了多种指标,但对非线性关系和极端市场情景的适用性未充分探讨。
- 复合因子正交处理是有效共线性缓解手段,但可能导致因子原始经济含义弱化,影响解释性。
- 回测区间较长,历史表现优异,但未来风险和市场结构变化对结果的稳健性影响尚需进一步关注。
- 未详细展开换手率和交易成本对不同组合风格的动态影响,且高换手率组合未来执行难度较大。
整个报告结构严谨,论据充分,实证效果突出,但仍应关注模型和数据的稳健性验证以及实际资金管理和市场冲击成本。
---
七、结论性综合
本报告系统阐述了基于基因表达式规划的价量因子自动化挖掘方法,明确界定因子的适应度指标,并在结构设计、演化算子及缓存机制上优化算法效率。通过选取ICIR、多头超额收益与分组收益单调性的综合适应度,成功提炼出15个低相关、长期有效的价量因子,融合传统基本面因子后构建复合因子,表现出色且稳定。
在实际量化投资组合构建中:
- 周频多头Top50纯多头组合年化收益高达43.3%,信息比4.94,明显跑赢中证500指数。
- 周频及日频中证500指数增强组合均实现了20%以上的显著超额收益,信息比达到5以上,且最大回撤控制良好。
- 全面采用交易成本和流动性约束保证组合的实际可操作性。
图表系统地支持了文本论点,完善展示了因子质量评估和组合效果。总体上,报告证明了基因表达式规划算法作为因子挖掘工具的有效性和实用价值,为多因子模型持续迭代提供了切实可行的技术路径,体现了金融工程与机器学习的深度融合。
---
参考文献溯源
- 因子挖掘方法及适应度定义详见第3章尤其3.1节;图表5-6说明指标设计和单调性认证;采用GEP算法流程图7详述[p::9-13]。
- 各Alpha因子及IC统计详见3.3节及图9-18和表5-9[p::12-16]。
- 复合因子计算及正交说明见3.4节图19-20及表10[p::15-16]。
- 组合构建及实证数据见第4章,图21-26及表12-15[p::17-22]。
- 报告总结明确了核心结论与风险提示[p::0,23]。
---
结语
本报告利用基因表达式规划实现价量因子的自动高效挖掘,并通过严谨的多指标适应度评估及正交处理保障因子质量,结合实证验证证明其优越的选股和组合性能,是当前量化金融领域因子创新和指数增强策略的重要研究与实践成果。