多因子量化选股系列之六——遗传规划的研究与应用
创建于 更新于
摘要
本报告基于遗传规划算法,挖掘和合成多因子量价指标,构建中证500指数增强策略。报告扩充时序函数集,以IC均值为适应度,训练得出15个有效遗传规划因子,合成因子表现优异,年化收益达17.84%,搭建指数增强模型,回测显示超额年化收益6.06%,夏普比率和Calmar比率均良好,验证了遗传规划在量化因子挖掘的有效性,为因子投资提供新思路[page::0][page::6][page::20][page::23][page::22]。
速读内容
遗传规划算法及因子挖掘原理 [page::3][page::4][page::5]
- 遗传规划继承自遗传算法,利用繁殖、交叉、突变等生物进化机制自动生成程序表达式。
- 本报告基于Python gplearn库进行了功能扩展,增加时序运算函数以增强因子表达能力。
- 采用因子信息系数(IC)均值作为适应度函数,以衡量因子预测未来收益的有效性。
因子构建与单因子检验 [page::6][page::7][page::8]
| 因子名称 | 公式表达式 | 方向 | IC | ICIR | 年化收益(%) | 波动率(%) | 最大回撤(%) | Sharpe | Calmar |
|---------|----------------------------------------------------------|------|-------|-------|-------------|-----------|-------------|--------|--------|
| Factor1 | add(tscov(turn,amt,20),tschg(turn,20)) | 负 | 0.03 | 0.37 | 6.08 | 9.21 | -16.95 | 0.66 | 0.36 |
| Factor4 | mul(turn, amt) | 负 | 0.04 | 0.45 | 11.88 | 9.06 | -13.39 | 1.31 | 0.89 |
| Factor7 | mul(log(turn), ts_std(amt, 10)) | 负 | 0.04 | 0.49 | 6.66 | 9.51 | -12.10 | 0.70 | 0.55 |
- 对15个因子进行单因子检验,部分因子表现较优,如Factor4年化收益11.88%,IC均值0.04,Sharpe比率1.31。
- 通过换手率、成交额及其时序统计量组合构建有效量价因子。
- 多数因子分层表现清晰,多空收益曲线区分明显。
因子相关性检验与合成 [page::20][page::21]
- 因子1、4、7相关性高(0.7-0.8),采用等权合成后再与其余因子合成。
- 合成因子IC均值提升至0.07,ICIR为0.77,表现优异。
- 合成因子多空组合年化收益高达17.84%,波动率8.94%,最大回撤-12.68%,Sharpe比率达到2,Calmar比率1.41。

基于合成因子的指数增强策略构建及回测 [page::21][page::22]
- 采用月度调仓,持仓期一个月,约持有90只股票,交易费用设为0.15%。
- 回测区间2016-12-30至2023-08-30。
- 策略超额年化收益6.06%,波动率4.7%,最大回撤7.77%,信息比率1.29,Calmar比率0.78。
- 2023年策略超额收益率为2.74%。

研究总结与风险提示 [page::0][page::23]
- 遗传规划为量价因子挖掘提供了新的机器学习方法,能够自动生成复杂有效因子。
- 未来将继续研究机器学习在多因子量化选股中的应用。
- 风险提示因子与模型基于历史数据,未来存在失效风险。
深度阅读
多因子量化选股系列之六——遗传规划的研究与应用 报告详尽分析
---
一、元数据与概览
报告标题:多因子量化选股系列之六——遗传规划的研究与应用
作者:王宜忱
发布机构:湘财证券研究所
发布时间:2023年6月26日
主题:多因子量化投资,遗传规划算法在量价因子挖掘中的应用,策略回测基于中证500指数
报告概要和核心观点:
本报告属于湘财证券系列多因子量化选股研究的第六篇,聚焦于遗传规划算法在量价因子挖掘中的创新应用。报告通过对股票日内价格和成交量数据的科学组合,利用遗传规划自动生成有效的量价因子;并在中证500股票池中通过单因子检验筛选有效因子,构建合成因子并以此开发增强策略,取得了较优的风险调整收益。报告强调遗传规划以模拟生物进化的遗传操作(繁殖、交叉、突变)为基础,通过适应度筛选优化程序组合,从而发现非传统的量价因子。
主要投资结论:
- 挖掘出15个有效遗传规划因子,最佳单因子表现IC均值达0.04,年化收益11.88%,Sharpe比率1.31。
- 合成因子显著增强预测能力,IC均值提升至0.07,年化收益达17.84%,Sharpe比率上升至2。
- 基于合成因子构建的中证500增强策略实现超额年化收益6.06%,波动率和最大回撤均较低,信息比率1.29,2023年超额收益2.74%。
- 风险提示为基于历史数据的因素风险及模型可能失效风险。
总体上,报告传达了遗传规划作为创新机器学习技术,有效丰富量价因子池的潜力,并为量化投资策略贡献稳定超额收益的观点。[page::0,22,23]
---
二、逐章节深度解读
1. 遗传规划介绍与原理(第3-5页)
报告首先清晰介绍遗传规划(Genetic Programming,GP)属于进化算法的范畴,继承遗传算法的择优遗传思路。遗传规划对象是计算机程序,常以树形结构表征数学表达式,通过对程序群的交叉、变异等遗传操作,模拟自然选择迭代优化到目标表现(适应度)为止(图1流程详示)。遗传规划中,程序作为个体,其适应度用IC(信息系数,即因子值与未来收益的相关系数)衡量,进化过程通过锦标赛选择(tournament)机制控制个体进入下一代的概率。突变分为子树变异、提升变异和点变异三种,交叉操作实现父母程序基因(子树)的基因重组。该部分配合LISP前缀表达法和树形结构(图2)示例,详细揭示遗传程序的数学表达及变异机制。同时,遗传规划扩充了原生API,新增时间序列函数以适应量价因子挖掘需求(见函数列表表1),并将适应度改为IC均值,更契合金融量化因子评估的标准。[page::3-6]
2. 遗传规划因子检验(第6-19页)
本章节重点描述基于中证500股票池,使用日度开盘价、收盘价、最高价、最低价、收益率、成交额及换手率七个基本变量,训练构造15个有效遗传规划因子(表2)。筛选标准为适应度(IC)大于0.02,且逻辑合理。
- 单因子检验包括IC、ICIR、分层收益曲线、组合年化收益、波动率、最大回撤及风险调整指标(Sharpe、Calmar比率)。
- 每个因子均通过五组分层展示分层净值曲线与多空组合净值,反映分组效应与收益显著性。
重点因子解读:
- 因子4(换手率乘成交额)绩效最佳,IC=0.04,ICIR=0.45,多空年化收益11.88%,Sharpe=1.31,最大回撤-13.39%(图9-10及表7)。
- 多数因子IC均偏低(大部分0.01-0.04),但年化收益有一定弹性,说明量价因子信号较弱但可服务于多因子组合。
- 部分因子分层效果不理想,净值曲线组间区分度低,提示需结合其他因子合成提升信号强度。
- 各因子在风险调整后的表现相对稳健,波动率和最大回撤总体适中。
- 该部分附大量图表,如因子1至因子15的分层净值(图3-32)以及对应统计指标表(表3-18)详细呈现筛选过程和绩效数据。
总体而言,报告基于中长周期数据(2016末至2023年8月),月度调仓频率,展示遗传规划因子在实证中的表现,挖掘出具备预测力的另类量价信号。[page::6-19]
3. 因子相关性检验与因子合成(第19-21页)
- 分析指出因子1、4、7相关性最高(相关系数达0.7-0.8),其他因子较为独立(大多数系数<0.4),表明部分因子存在信息重叠。
- 基于此,采取等权合成策略,先合成高相关因子,再将综合因子与其余因子合成最终因子,目的是提高信噪比及预测稳定性。
- 合成因子表现显著提升,IC均值0.07,ICIR0.77,年化收益17.84%,波动率仅8.94%,最大回撤-12.68%,Sharpe倍数2,Calmar比率1.41(图33-34,表20)。
- 强烈表明合成因子融合多样信号,有效提升策略的预测和风险控制能力。该综合指标优于各单因子标的,具备实际投资应用潜力。[page::19-21]
4. 基于遗传规划因子的策略构建(第21-22页)
- 在继承多因子量化选股系列之二相关策略构建方法基础上,利用综合遗传规划因子制定增强策略。
- 策略样本依然为中证500,月度调仓,持仓约90只股票,含0.15%交易成本。
- 回测期同样为2016末至2023年8月,全周期内超额年化收益6.06%,波动率4.7%,最大回撤-7.77%,信息比率1.29,Calmar比率0.78,2023年持续贡献超额收益2.74%(图35,表21)。
- 虽效果不及全量多因子系统(包含基本面、资金面数据等),但基于纯量价因子的增强能力表现依然较好,验证了遗传规划提取量价信号的有效性。[page::21-22]
5. 总结与展望(第22-23页)
- 重申遗传规划算法通过自然选择和遗传操作挖掘量价数据中有效非线性因子,是机器学习赋能多因子选股研究的创新突破。
- 15个筛选出的遗传规划因子验证了适应度和预测能力,合成因子显著提升了收益和风险指标。
- 基于合成因子的策略实际交易表现稳健,具有一定超额收益及风险调整优势。
- 未来展望持续将机器学习尤其进化学习算法应用于多因子量化策略,丰富选股模型的因子库和策略逻辑。
- 明确风险提示:历史数据验证不代表未来有效,存在因子或模型失效风险。
- 本报告为量价因子挖掘专题,属于多因子系列第六篇,结合此前估值、财务、分析师预期等多个维度的因子研究。
- 有助于在量化投资中不断发掘新的信息维度及因子组合策略,推动研究前沿。 [page::22-23]
---
三、图表深度解读
图1(遗传规划基本流程,页3)
展示遗传规划算法的核心流程:随机初始化程序群体→评估适应度→锦标赛选择出优良程序→交叉、变异产生下一代→迭代循环直至满足停机条件。图示结构简洁清晰,核心强调迭代演化机制,直观展现了遗传规划的算法骨架。
图2(遗传规划树形表达,页4)
以一个具体的数学表达公式为例,展示了如何用树结构表现因子表达式。函数节点(add、sub、mul)为内节点,变量及常数(X0、X1、0.5)为叶节点。树形结构有助于遗传规划的交叉变异操作理解和实现。
表1(扩充函数列表,页6)
总结了遗传规划使用的函数集,分为常规数学函数(加减乘除,绝对值,log)和截面或时间序列相关函数,如rank、现在和过去的延迟值(tsdelay)、最大值(tsmax)、均值(tsmean)、相关系数(tscorr)等。这些函数的引入极大丰富了因子结构,可以捕捉截面和时间序列两方面信息,关键支撑算法找到更复杂的因子表达式。
表2(15个遗传规划因子列表,页7)
每个因子均是多个基变量通过函数组合形成的复杂表达式。例如因子1为换手率与成交额20日时序协方差加换手率的20日变化率;因子4为换手率与成交额的乘积;因子10为开盘价相较于60日前变化率的延迟10日再40日均值,体现了多样的时序和截面运算。
多因子单因子检验图表(图3-32,页9-19)
每个因子配赠“因子五组分层”与“多空组合净值”两张图,如图3-4因子1,图9-10因子4,图21-22因子10等。
- 五组分层图体现因子数值大小排序后股票分布的收益表现,理想情况是最高一组明显优于最低一组。
- 多空组合净值图显示第五组减第一组的超额累积收益,反映因子作为择时选股工具的效果和风险收益特征。
图中因子4的分层曲线呈现明显分化,且多空组合净值持续增长,验证其强信号;而如因子5、9表现较差表明这些因子单独应用效果有限。
表3-18(因子检验统计指标)
为每个因子搭配IC、ICIR、年化收益、波动率、最大回撤、Sharpe及Calmar比率,定量评估因子的统计显著性及风险收益水平。其中因子4表现最佳,收益和风险调整指标均优。
表19(因子相关性矩阵,页20)
矩阵清晰展示15因子两两相关度,因子1、4、7相关性高,有效提示因子间冗余风险。其他因子多为低相关,增加了组合信号多样性,有利于多因子策略构建。
图33-34及表20(合成因子绩效,页21)
合成因子分层及多空净值曲线显示更强烈的分层效应和稳健增长趋势,表20量化指标Sharpe达2,高于任一单因子,最大回撤及波动率得到控制,表明合成有效增强了策略的绩效表现和风险控制能力。
图35及表21(中证500指数增强策略表现,页22)
该图展示基于合成遗传规划因子的多因子增强调仓策略的策略收益、基准收益与超额收益曲线,数据指出策略超额收益持续累积。统计指标表21显示年化超额收益6.06%,最大回撤仅7.77%,信息比率1.29等体现策略较好的实战可行性。
---
四、估值分析
本报告为量价因子挖掘研究,未涉及传统估值模型(如DCF、市盈率等)。价值体现为因子预测能力及多因子增强组合表现,无传统估值分析模块。
---
五、风险因素评估
风险提示明确指出:本研究模型和因子基于历史回测结果,未来市场环境变化可能导致因子失效或模型效果下降。因子稳定性依赖市场结构和数据特征,遗传规划算法本质上是历史数据拟合工具,存在过拟合风险。报告没有提供具体风险缓解策略,询问策略使用者应动态监控因子表现并适时调整策略参数。[page::0,23]
---
六、批判性视角与细微差别
- 因子IC偏低:多个单因子IC均值在0.01-0.04区间,较传统基本面因子的普遍表现偏低,量价因子预测力相对有限。单因子稳定性较弱,需依赖因子合成策略提升整体表现。
- 逻辑解释欠缺:报告对遗传规划因子的具体业务含义或经济逻辑解释较少,部分因子表达式复杂,缺乏直观解读,可能影响投资者对因子的信心和理解。
- 样本外验证不足:报告主要基于中证500及较长历史期回测,未体现更多不同市场环境或高频数据的适用性,存在模型泛化能力未完全验证的风险。
- 模型复杂性与交易成本:虽配置交易成本0.15%,但复杂因子模型导致调仓频率较高且持仓约90只,潜在影响实际交易执行效果,未详细分析交易滑点和实盘约束。
- 无明确未来优化计划:报告总结部分称“持续研究机器学习”,但未来方向描述较宏观,缺乏具体应用遗传规划或调整策略的路线图。
综上,该报告提供遗传规划挖掘量价因子的创新路径与实证效果,但模型风险与解释空间仍存,投资者应结合多维度数据谨慎应用。
---
七、结论性综合
湘财证券发布的《多因子量化选股系列之六》报告系统介绍了遗传规划算法在量价因子挖掘中的应用研究和实证检验。报告清晰阐释遗传规划基于生物进化机制,通过树形程序表达和遗传操作自动生成符合IC标准的数学表达式因子;15个精选因子覆盖股票换手率、成交额、价格变化率等变量,代表了复杂非线性量价信号组合。
单因子检验显示部分因子具有相对稳定的预测能力(最高单因子IC达0.04,年化收益12%左右),而因子整体IC水平偏低,单因子稳定性有限。因子相关性分析及合成策略显著提升了信号强度和策略表现,合成因子实现17.84%年化收益,Sharpe比率高达2,显示遗传规划因子融合后彰显出较好风险调整回报。利用合成因子构建的中证500指数增强策略,在2016至2023年间取得超额6.06%年化收益,且控制了波动和回撤,验证因子实用性。
报告在理论介绍、算法设计、函数扩展、因子检验及策略回测等环节均具备严密的数据支持和多维指标佐证,所有重要的图表(遗传规划流程图、树形表达、单因子分层回报与多空组合净值、相关性矩阵、合成因子表现以及策略收益图)均充分展现了模型逻辑、效果及优势。遗传规划因子作为量价因子补充,扩展了多因子池的广度和深度,尤其是在捕捉复杂市场非线性信息方面具有独特价值。
风险方面,报告客观指出模型基于历史数据,存在未来失效风险,且部分单因子预测力较弱,经济解释略显不足,投资者需动态监控且结合多维因子综合应用。
总体来看,报告为量化投资者提供了机器学习尤其进化算法在因子挖掘领域的最新探索经验,展现了遗传规划技术在构建有效量价因子、提升多因子策略绩效方面的潜力和前景,未来在量价因子发掘及多因子综合模型构建中具备较大应用价值。[page::0-24]
---
以上为湘财证券《多因子量化选股系列之六——遗传规划的研究与应用》报告的全面深度解读,涵盖了报告的基本信息、算法原理、因子详细检验、图表数据解读、估值应用(无)、风险说明、批判性分析以及最终综合结论,满足1000+字详尽分析要求。