`

遗传规划解构与投资思考 ——解构机器学习系列之一

创建于 更新于

摘要

本报告深入分析遗传规划挖掘量价因子的流程和优化算法对因子表现的提升机制,发现适应度函数构建和优化算法组合显著增强因子夏普比率和样本外表现。基于遗传规划因子构建的量化选股策略自2022年以来实现多空组合28.37%年化收益,且对传统量化模型表现有明显提升,展示其在不同股票池的稳健性和应用潜力[page::0][page::3][page::6][page::16][page::18][page::19][page::22]。

速读内容


遗传规划基本流程及因子筛选设计 [page::3][page::5]


  • 遗传规划通过初始化种群、公式树变异及筛选等步骤,生成量价特征公式树。

- 筛选过程采用多种适应度函数(夏普比率、年化收益、RankIC等)评价因子质量,因子筛选设计显著影响回测效果。

因子评价指标及收益类型差异分析 [page::8][page::9][page::10]


  • 使用多空收益作为适应度函数的因子,多空组合净值和夏普均优于多头收益计算指标。

- 多空收益计算提升因子分层稳健性,而多头收益计算因子多头收益表现较好。
  • 不同适应度函数挖掘的因子在收益、夏普、预测能力指标上存在差异,且同源因子相关性较高。


优化算法对因子挖掘效率及样本外表现的提升 [page::12][page::16][page::17]


  • 引入束搜索、家庭竞争和排挤算法等多种优化方法后,因子多空组合夏普比率提升0.88,优化算法提升种群多样化及挖掘效率。

- 样本外表现和过拟合风险经实证验证,组合优化算法提升了因子的稳定性和延续性。

遗传规划量价因子选股策略实证表现 [page::19][page::21]



| 时间区间 | 年化收益 | 最大回撤 | 年化夏普 | 年化双边换手 |
|----------|----------|----------|----------|--------------|
| 样本外(2022年以来) | 28.37% | -11.70% | 1.52 | 66.96 |
  • 策略采用日频换仓,季度更新因子,表现稳定优异。

- 策略在沪深300、中证500等多股票池均表现良好,中证500表现最佳。

遗传规划因子提升传统量化选股模型效果 [page::22]


  • 将遗传规划因子加入基准多因素模型,样本外累计超额收益21.24%,显示因子对提升量化模型有效性重要作用。


深度阅读

《遗传规划解构与投资思考》报告详尽分析



---

1. 元数据与概览


  • 报告标题:遗传规划解构与投资思考 —— 解构机器学习系列之一

- 作者:张晗(分析师)、卢开庆(研究助理),国泰君安证券研究
  • 发布机构:国泰君安证券研究所,金融工程团队

- 发布时间:未明确具体日期,但相关内容和引用时间点至2023年
  • 主题:深入解构遗传规划算法及其在量价因子挖掘和量化选股策略中的应用

- 核心论点
- 遗传规划是一种基于随机变异并以特定因子筛选标准指导的量价特征拟合工具。
- 因子筛选标准和优化算法是影响遗传规划挖掘效率和效果的关键。
- 使用不同适应度函数会导向不同类型的有效量价因子。
- 结合父代个体选择和适应度调整的优化算法能显著提升因子挖掘效率与表现,同时缓解过拟合风险。
- 遗传规划所挖掘因子在量化选股策略中优于传统模型,在多个股票池均有效。
  • 评级与目标价:报告侧重于量化策略研究,无明确股票评级与目标价。[page::0-1]


---

2. 逐节深度解读



2.1 引言与研究背景



报告强调量价领域研究应重视对“内心世界”的认知,即投资者的决策机制和市场定价规律,而非简单数据挖掘。遗传规划通过寻找有效公式形式反推投资者行为,弥补了定价机制研究不足。
  • 图1 展示了“符号世界—内心世界—符号世界”研究闭环,体现量价数据与投资者行为的互动关系。

- 投资策略往往在市场风格切换后调整,表现出对定价规律理解的滞后(图2,市值风格变化示意)。
  • 传统行为金融学依赖主观构建交易模型,更新滞后且对时间参数敏感,遗传规划反向挖掘公式完善模型边界。[page::2]


2.2 遗传规划解构与流程



遗传规划通过“初始化种群—变异—筛选”的迭代进化过程寻找有效因子。算子包含基本运算、条件选择及时间序列类,共60个,扩展了金融数据适用性。
  • 初始化种群:随机组合算子、数据生成公式树,每个公式代表一个量价因子(图5)。

- 变异方法:交叉变异、子树变异、节点变异和提升变异,随机改变公式结构(图6-7)。
  • 因子筛选:依据适应度函数(如年化收益、夏普比率、RankIC等)评价因子,决定进化方向(图8)。

- 二次筛选:自动进行,剔除相关性过高或适应度低的因子,确保因子池中多样性和质量。
  • 基准测试(表1-3):未加优化情况下,10轮迭代筛选出24个样本内夏普比率>0.5的因子,前五因子表现稳定,低换手率,回测净值走势制度良好,表明遗传规划具备因子挖掘基础能力。[page::3-7]


2.3 因子筛选指标差异分析


  • 指标计算基于多空收益或多头收益影响因子表现及收益层面稳定性(图11-14,表4),多空收益提升多空组合稳健性,多头收益适合多头策略。

- 不同适应度函数(年化收益、夏普、RankIC、ICIR、胜率等)导向挖掘不同性质因子。以收益为导向的因子收益率及夏普率较高,预测能力指标因子表现预测指标好但收益弱(表6-7,图15)。
  • 因子间差异明显,两两IC相关低(表8),但当排序筛选取前列因子,相关性显著增加,反映了因子本质是对相同内心定价机制的不同公式拟合(表9)。

- 适应度函数的选择反映进入内心世界的不同路径,二者差异和同质性并存,优化算法可助提升单因子挖掘效率和多指标综合筛选能力(节2.3.3)[page::8-11]

2.4 优化算法设计与应用



遗传规划中提升种群多样性是关键以防止早熟收敛和过拟合:
  • 父代个体选择算法:束搜索(Beam Search)在初始化时保留更多初始因子以提升路径多样性(图17);家庭竞争限制单个高度适应个体过度繁殖,保证子代多样性(图18)。

- 适应度调整算法:排挤算法(Supplant)局部调整相似因子适应度,降低相似度高且适应度低的因子分数(图20-21);共享适应度函数算法(Sharing Value)基于整个种群因子相似度并调整适应度,更全面但易受极端值干扰(图22-23)。
  • 实证结果(图24-27,表10-11):

- 束搜索显著提升基准模型因子夏普比率。
- 单独使用家庭竞争或适应度调整效果不明显,三者组合最佳。
- 排挤算法效果优于共享适应度函数,表明局部相似度调整更为有效。
- 样本外验证显示三者组合同样保持了因子表现提升,说明优化算法对过拟合风险缓解作用良好。
  • 说明因子多头收益表现提升有限,提示因子筛选指标应针对策略投资方向设计。[page::12-18]


2.5 量化选股策略实证


  • 纯遗传规划因子策略:以2021年以来季度滚动挖掘的前10因子等权构建日频换仓多空、多头策略。

- 样本外表现(2022年至今):多空组合年化收益28.37%,最大回撤-11.7%,夏普1.52;多头组合16.2%,最大回撤10.07%,夏普0.68(图28-29,表12-13),换手率高且计入成本,未来成本下降空间有望进一步提升表现。
  • 市场交易特征动态性:各季度因子表现存在显著差异,2022年前后表现分水岭明显,反映市场定价规律的演变(图30)。

- 不同股票池适用性强,中证500池表现最佳,沪深300相对较差,多头收益超越全A表现稳定(图31-32)。
  • 结合传统因素构建综合模型,遗传规划因子在整体权重仅8.33%情况下,样本外超额收益21.24%,显示其作为补充因子的价值(表14,图33)。[page::18-22]


2.6 总结与风险提示


  • 遗传规划是通过随机变异和因子筛选自动化挖掘量价特征的有效框架。

- 适应度函数的设计对挖掘结果具有导向作用,不同指标可带出多样化因子。
  • 优化算法能有效保持因子多样性及提升挖掘效率,三者组合表现最优,且样本外表现得到保障。

- 遗传规划因子在量化选股策略中表现出较强稳定性与收益能力,并为传统模型带来显著提升。
  • 量化模型存在样本外失效风险,市场风格变迁、样本期选择及交易成本均为潜在影响因素。

- 作者强调理解机器学习算法结构的重要性,计划后续继续深挖相关技术架构与应用。 [page::22]

---

3. 图表深度解读



图1:内心世界认知流程示意


  • 展示量价数据(符号世界)如何反映投资者决策机制及定价规律(内心世界),进而指导定价模型和投资组合构建。强化研究量价策略根源的重要性。[page::2]


图2:市值风格变化趋势


  • 2008-2022年市值风格指数下滑与反转,暗示市场结构及定价特征长期演化,策略需动态适应。图中2016年风格拐点对应策略更新的必要性。[page::2]


图3-7:遗传规划流程和结构


  • 公式树结构示例展示因子表达形式,直观展示了计算逻辑。

- 流程图则系统展示初始化、变异、筛选、二次筛选四阶段。
  • 种群变异示意(图7)具体描绘了公式树变异的操作及保留策略,[page::3-5]


图8:适应度函数分类


  • 明确不同单指标及组合指标对因子筛选的导向意义,奠定指标选择重要性基础。[page::5]


图9-10:前五因子累计净值(多空、多头)


  • 净值曲线均表现上升,样本内外均衡,无大幅回撤,显示因子表现持续稳定。多头净值走势更为优异,差异体现因子多空收益计算的影响。[page::7]


图11-14:多头收益与多空收益指标计算的净值及分层表现


  • 多空收益计算指标回测净值更稳健,分层表现单调,适合需要多空组合的策略。

- 多头收益计算在多头端收益更突出,分层表现差异明显。
  • 分层条形图说明收益分布特征差异和潜在策略选择依据。[page::8-9]


图15:不同适应度函数挖掘因子平均累计净值


  • 年化收益和夏普率指标引导的因子整体表现优于RankIC、ICIR等预测类指标,预测类指标挖掘出因子收益表现相对疲软。[page::10]


表6-7:不同适应度函数挖掘因子性能


  • 具体指标间的收益、最大回撤、夏普差异明确展现了不同指标的选因子导向,辅助优化适应度函数选择。[page::10-11]


表8-9:因子组间相关性分析


  • 因子间相关性较低,反映指标导向的差异性;因子排名前列时相关性提升,体现内心世界的同质性。[page::11]


图16:优化算法架构图


  • 分类清晰展示父代选择和适应度调整两大主要优化算法类别及其具体方法。[page::12]


图17-18:束搜索与家庭竞争算法


  • 束搜索扩大早期搜索路径多样性,有助减少贪心路径陷阱。

- 家庭竞争算法限制单一样本过度繁衍,保障种群多样性。[page::13]

图19-23:适应度调整算法示意及调整前后数据表


  • 排挤算法通过局部相似度调整适应度,减少近似因子倾向,保持多样化。

- 共享适应度函数则利用整体相似度调整,全面但受极端影响更大。
  • 相关数据表直观呈现调整前后适应度变化,凸显算法作用。[page::14-16]


图24-27:优化算法回测表现(样本内+样本外)


  • 优化组合算法显著提升夏普率和收益表现,同时样本外延续性较好。

- 图表明确显示不同算法间净值走势差异,对比基准表现优势及稳定性。[page::16-17]

图28-29:纯遗传规划量化选股策略净值及收益表现


  • 净值稳步攀升,多空组合和多头组合收益具备实用价值,样本外年化收益率高,夏普比例良好,交易费影响显著。[page::19]


图30:季度滚动挖掘因子表现差异


  • 不同时间窗口的因子表现差异显著,反映市场定价特征演变,说明动态挖掘策略的重要性。[page::20]


图31-32:因子在不同股票池中的表现


  • 战略具备跨股票池的适应性,中证500表现最优,沪深300最低,多头组合表现稳定超越基准。[page::21]


图33:遗传规划因子对传统模型的提升


  • 叠加遗传规划因子的综合模型样本外表现明显超越基准模型,体现其有效性和增益值。[page::22]


附录表:量价算子列表与因子公式


  • 提供遗传规划中底层构建算子及典型因子公式,展示模型底层透明度和复杂度。[page::23-25]


---

4. 估值分析



本报告无直接的公司估值部分,专注于量化模型和因子工具的算法及策略构建,不涉及传统DCF或多指标市盈率估值。因而此部分无对应内容。

---

5. 风险因素评估


  • 量化模型失效风险:报告明确提醒基于历史数据和模型的结论在样本外存在失效风险。

- 样本期选择、市场风格周期变迁(如2017年、2021年市值风格转折)均影响因子有效性。
  • 交易成本变动对策略表现有重要影响。

- 机械化挖掘和策略执行面临过拟合及现实交易因素限制。
  • 模型适用性依赖充分理解和定期检验,可能的缓解手段包括优化算法修改、动态挖掘窗口调整等。[page::0,8,18,22]


---

6. 审慎视角与细微差别


  • 虽然报告对优化算法带来的过拟合问题持相对乐观态度,但实际市场环境的复杂性及变化存在潜在隐含风险,尤其样本外验证时间较短(仅两个月部分测试),需谨慎对待成果的稳健性。

- 因子评价指标之间的不完备性和相互矛盾,表明实际投资策略需取舍权衡,不能简单依赖单一指标。
  • 遗传规划因子本质上是定价机制拟合的符号表达,因而存在因子同质化风险,对于差异化策略开发仍有一定挑战。

- 报告强调动态特征挖掘,深刻指出市场环境的快速演变对因子有效性的影响,值得关注。
  • 部分表格和数据中因复杂公式可能对非专业读者理解有门槛,需要结合附录详细解释。

- 交易费用和换手率对策略收益冲击较大,策略实际应用中需要约束和优化。
  • 报告未详细说明优化算法参数敏感性,可能影响结果的可重复性和泛化。

- 结论较为依赖特定市场(沪深A股)及时间段,跨市场、跨周期的普适性尚未验证。

总体上,报告基于大量数据和精细回测,提出了较为完整且深入的遗传规划应用框架,但需结合实际情况谨慎应用和持续迭代。

---

7. 结论性综合



本报告深度解构了遗传规划算法的结构及其在量价因子挖掘中的具体应用,提出并验证了因子筛选标准和优化算法对挖掘效率和因子质量的决定性影响。核心贡献包括:
  • 全面剖析遗传规划流程,强调初始化种群、变异机制和因子筛选的关键环节,以及由人工向自动化二次筛选方法的转变。

- 指出适应度函数的选择对因子表现有导向作用,以年化收益或夏普比率作为目标适应度函数往往能挖掘出更优收益和风险平衡的因子。
  • 创新引入束搜索、家庭竞争、排挤算法等优化算法,显著提高因子样本内和样本外表现,且组合使用效果最佳,特别是排挤算法局部调整适应度显示较好效果。

- 通过实证回测验证,遗传规划挖掘出的因子在多股票池、多市场环境下均表现稳定,且在量化选股策略中能显著提升传统模型的收益表现
  • 识别因子收益层面具有非线性分层现象及市场交易定价特征的动态演变,强调动态挖掘窗口与定期模型更新的重要性。

- 强调尽管因子组内存在差异,但因符号世界对内心世界决策机制的拟合,其本质相似性导致策略同质化问题。
  • 风险警示明确,指出量化模型面临样本外失效风险,模型表现依赖于市场流动性、风格变迁与交易成本,强调持续有效性检验重要性。


结合全报告的表格与图形:
  • 因子多空和多头收益计算带来不同风险收益和稳定性特征(图11-14,表4)

- 不同适应度函数挖掘出的因子差异明显但存在基本同质性(表8-9)
  • 优化算法组合提升了因子夏普率0.88以上,且样本外延续效果良好(图24-27,表10-11)

- 纯遗传规划因子策略样本外费后年化收益最高达28.37%,对传统因子模型样本外超额收益高达21.24%(图28-33,表12-14)

报告立场明确,认为遗传规划及其优化算法是量价因子挖掘和量化策略构建的有力工具,推荐关注相关方法的应用和持续优化。[page::0-22,24-26]

---

总体评价



本报告以高度系统化和实证为基础,详尽阐释了遗传规划挖掘量价因子的核心技术和策略应用路径,尤其突出对适应度函数选择及优化算法机制的深刻洞察。图表丰富,提供大量实证支持和算法细节,既适合金融工程技术团队深入研读,也为量化投资模型构建提供实用参考。风险提示合理,审慎视角客观。未来可拓展空间包括优化算法参数敏感性分析、跨市场适用性检验及实时动态调节框架开发。

---

如果需要,后续我可对某些章节做更深入细分分析或进行具体算法实现解析。

报告