`

基于遗传规划的因子挖掘优化模型

创建于 更新于

摘要

本报告基于遗传规划技术,提出优化的因子挖掘模型,通过改进进化算法、控制因子膨胀与相关性,成功挖掘出53个优质量价因子,并构建多因子组合Alpha_GP。该组合在2021-2023年样本外测试中实现20.49%的年化超额收益和1.31的夏普率,优于传统量价因子。报告包含因子构造方法、单因子与多因子绩效对比,并提出未来提升空间如GPU加速、多进程运算等技术方案,为量化因子挖掘提供系统解决方案 [page::0][page::4][page::5][page::6][page::8][page::10][page::11][page::12][page::13]

速读内容


遗传规划因子挖掘模型介绍 [page::2][page::3]

  • 遗传规划采用公式树表达量价因子,结合选择、交叉、变异操作实现公式进化。

- 适应度以截面RankIC均值绝对值计量,反映因子预测效果。
  • 进化方法采用双锦标赛选择控制公式长度并提高收敛速度,两点交叉保留更多父代信息,加入父子竞争机制保证策略稳定性。

- 基本流程为初始种群随机生成,适应度评估,遗传进化直到终止条件完成。

模型改进与优化策略 [page::4][page::5][page::6][page::7]


  • 更换底层框架由Gplearn迁移至Deap,实现模块化自定义算法以避免因子过长、趋同及高相关现象。

- 剔除近四分之一低质量因子,平均公式长度从4.546降至4.022,平均适应度由0.018提升至0.023。
  • 采用双锦标赛优化选择过程,交叉算法升级为两点交叉,加入父子竞争机制提升进化质量。

- 利用20个独立回测轨道规避路径依赖,验证年化超额收益率和夏普率表现稳定,如图显示不同轨道指标一致。

  • 控制公式膨胀,通过长度惩罚和双锦标赛显著减小公式复杂度,因子公式长度主要集中在2-5之间。

  • 降低因子趋同风险,进化中剔除重复公式,控制因子库中最大相关度低于0.5,实现多样化因素组合筛选。



因子设计与超参数设置 [page::8][page::9]

  • 股票池为中证500,样本区间2016-2020年,样本外2021-2023年,目标预测20交易日后收益率。

- 初始234个价格及量价特征,63个自定义算子,包括18个非时序算子和45个时序算子。
  • 进化超参数:初始种群1000个,精英种群200个,迭代5代,交叉概率0.5,突变概率0.2。

- 进化过程中适应度平均值持续提升,公式长度增长控制良好,获得53个符合标准因子进入因子库。

单因子测试分析 [page::11][page::12]

  • Alpha8因子(市销率前滚20日加权后延迟10期)表现稳定,2021年因子收益24.92%,超额收益12.47%,夏普率2.43,最大回撤-6.01%。

- Alpha11因子(5日换手率前滚20日乘积标准化)因子收益31.64%,超额收益19.19%,夏普率2.50,最大回撤-4.77%。



多因子组合策略构建与回测表现 [page::12][page::13]

  • 多因子组合AlphaGP基于单因子年化夏普率加权构建,行业内部和行业间分别等权及加权。

- 调仓频率为每20交易日,手续费千分之三。
  • 2021-2023年样本外测试中,AlphaGP实现15.46%因子收益率,20.49%年化超额收益率,夏普率1.31,最大回撤-7.74%,显著优于传统市销率、5日换手率、MACD、成交量比及速动比率因子。

| 因子名称 | 因子收益率 | 超额收益率 | 信息比率 | 最大回撤 | 夏普率 |
|----------|------------|------------|----------|----------|---------|
| Alpha_GP | 15.46% | 20.49% | 0.93 | -7.74% | 1.31 |
| 市销率 | 3.56% | 8.58% | 0.46 | -6.74% | 0.45 |
| 5日换手率| -0.69% | 4.33% | 0.21 | -12.31% | -0.08 |
| MACD | -6.69% | -1.67% | -0.08 | -26.48% | -0.59 |
| 成交量比 | -3.51% | 1.52% | 0.07 | -18.38% | -0.26 |
| 速动比率 | -1.15% | 3.87% | 0.19 | -15.20% | -0.11 |


未来优化方向与风险提示 [page::13][page::14]

  • 计划继续扩展数据范围,提升算力(GPU加速、多进程),增加挖掘轮次,应用数据中性化及降维等技术手段提升模型性能。

- 风险提示强调传统量价因子与遗传规划因子适用市场环境差异,呼吁合理选择工具及注重风险控制。

深度阅读

基于遗传规划的因子挖掘优化模型 ——详尽分析报告



---

一、元数据与报告概览



报告标题:基于遗传规划的因子挖掘优化模型
作者:陆豪(执业证书编号:S0590523070001)、康作宁(执业证书编号:S0590524010003)
发布机构:国联证券研究所
发布时间:2024年(具体日期未标)
研究主题:使用遗传规划(Genetic Programming,GP)技术进行股票量价因子的自动挖掘与优化,基于中证500成分股,通过进化算法筛选和优化股票因子,提升因子质量和多因子组合的投资绩效。

核心论点及内容概述
  • 本文系统介绍遗传规划的理论以及因子挖掘模型的构建流程,重点在于模型的8个关键优化方向,如初始种群优化、算法演化策略更新和因子库管理。

- 以2016-2020年数据为样本内,2021-2023年为样本外测试,通过234个初始特征和63个自定义算子,使用截面RankIC均值绝对值评估适应度,实现在月频层面挖掘优质量价因子。
  • 单因子和多因子结合测试表现优于传统量价因子,提出了进一步采用多进程、GPU加速及降维的未来改进方向。

- 报告强调了适用环境差异与风险提示,提醒投资者合理选择策略并注重风险管理。

---

二、逐节深度解读



1. 遗传规划简介



1.1 公式树


遗传规划中个体表现为树状公式结构,节点是操作符(加、减、乘、除等),叶节点是变量或常数(如价格、成交量),通过交叉与变异演化树结构。
图表1(公式树示例)演示了一个公式y = (x4 + x6) × max(x8, x13)的树形结构,同时给出了对应的S-表达式,清晰展现了公式树形态的表达能力。
这一结构使得模型能够灵活组合多种特征,生成复杂因子表达式。[page::2]

1.2 适应度


适应度函数衡量个体表现优劣,对于量价因子可选Rank IC、夏普率、年化收益等指标。通过适应度评估实现优质因子的筛选和进化。
适应度设计对算法性能至关重要,决定了进化方向和最终输出因子的有效性和稳定性。[page::2]

1.3 进化方法


进化体现在选择、交叉、变异操作中,类似自然遗传过程。其中交叉通过交换树某部分结构生成新个体。图表2展示了“sub(log(x0), add(x3, x5))”和“div(abs(x6), x7)”两棵树交叉后,得到的子代树“sub(abs(x6), add(x3, x5))”,形象体现了交叉的具体操作。
此方法保持遗传信息流动,促进种群多样性和性能提升。[page::3]

1.4 基本流程


遗传规划的循环流程:初始化种群→适应度计算→选择父代→进化操作(交叉,变异等)→生成新种群→迭代,直到停止条件。图表3清晰展现了这一流程。多轮迭代后,模型得以从随机组合中过滤出优质因子。[page::3]

2. 模型优化思路



2.1 更新原有框架


原用Gplearn因其底层难改制,存在因子长、趋同和高相关性问题,改用更灵活的Deap框架,自定义进化流程、增加后代操作等,成功缓解这些问题。[page::4]

2.2 优化初始种群


剔除低质量个体(公式长且适应度低),优化前后种群平均公式长度由4.546降到4.022,平均适应度由0.018提升至0.023,提升种群质量,提高算法效率。图表4展示了优化效果,红色为初始群体数量分布,浅红为优化后数量减幅,体现明显瘦身效果。[page::4]

2.3 优化进化算法

  • 选择算法由锦标赛升级为双锦标赛,增加对公式长度的惩罚,鼓励更短因子。

- 交叉由单点升级两点交叉,更好继承父代信息。
  • 增加父子竞争机制,保留适应度最高个体,避免劣质子代替换优质父代。

这些改进兼顾收敛速度和模型表现稳定性。[page::5]

2.4 避免路径依赖


通过在预测目标为20交易日后收益率下,构建20个独立仓位回测轨道(每月调仓),对比不同轨道的超额收益率与夏普率,获得表现相近结果,显示模型规避因路径依赖带来的表现差异性。图表5与图表6详细展示轨道间绩效的稳定性和一致性。[page::5]

2.5 避免公式膨胀


进化代数提升会带来公式膨胀和复杂度提升影响可解释性。采用双锦标赛和适应度中的长度惩罚系数,限制公式长度。
因子库中53因子公式长度主要集中于2-5,最长也仅8,见图表7,说明模型有效抑制了公式膨胀问题,保证了因子简洁且解释性较高。[page::6]

2.6 避免因子趋同


重复因子多导致缺乏多样性。模型降低相同高适应度因子被重复选中的概率,并通过去重操作保证新种群无重复个体,提高因子多样性与泛化能力。[page::6]

2.7 控制因子相关性


为避免高相关因子聚集增加风险,在因子入库前检测相关性,设定0.5阈值,低于阈值者纳入,确保因子库因子间相关性较低。
图表8列举10个随机抽取因子公式,图表9展示对应的相关性矩阵,绝大多数相关性远低于0.5,验证控制效果。此策略减少了每代惩罚计算的资源负担,提升计算效率。【图表8/9均见示例】[page::7]

2.8 扩大数据范围、算子集


增加研究时间跨度(2016-2023拆分为样本内与样本外),拓宽特征至234个,算子从7个提升至63个,包含18个非时序和45个时序算子,使模型对复杂关系的表达能力和适应力增强,降低过拟合风险。[page::7]

3. 实验结果



3.1 数据参数与超参数

  • 股票池:中证500成分股

- 样本区间:2016-2020年,样本外测试2021-2023年
  • 目标:预测20交易日后收益率

- 初始特征:共234个,包括高开低收等价格与量价特征,采用滚动20日时序标准化
  • 算子集:63个自定义算子,涵盖基本加减乘除、时序统计、转换等功能(详见图表11)。

- 适应度函数为RankIC均值绝对值+长度惩罚
  • 超参数(图表10)关键包括:初始种群大小1000,精英群体200,迭代5代,交叉概率0.5,变异概率0.2等。[page::8][page::9]


3.2 结果展示

  • 一次挖掘共得53个因子入库,日志数据显示进化5代后适应度平均值从0.0241提升至0.0263,公式长度增加有限,控制在合理范围内。

- 因子类型涵盖技术指标、情绪、动量、价值、风险收益及复合型因子。详见图表12与图表13列出完整因子列表与对应适应度值,最高达0.1316。
  • 多代迭代提升再多收益有限,3-5代迭代性价比最高。[page::9][page::10]


4. 单因子测试



选取Alpha8和Alpha11两因子做样本外单因子绩效测试。
  • Alpha8:基于市销率的价值类因子,应用20日前滚时序加权后取10期前值。

测试期2021-2023年累计表现显示2021年、2022年均超基准12%-33%超额收益,2023年有所回落。总体夏普率0.64,信息比率0.62,表现稳健。图表14/15展示统计数据和业绩曲线,超额收益累计显著。[page::11]
  • Alpha11:情绪类因子,5日换手率经20日乘积及标准化处理。

2021和2022年表现优异,超额收益分别达19.19%和35%,夏普率达到1.17,信息比率0.88。2023年表现较弱,但整体多头累计超基准。图表16/17详细体现业绩统计及曲线。[page::11][page::12]

5. 多因子组合



5.1 策略构建

  • 因子加权由单因子年化夏普率定权,构建复合因子AlphaGP。

- 依据申万一级行业分类,行业内选取前10%股票组成多头组合,行业间按上证综指行业权重加权,调仓频率为每20交易日一次,双边手续费0.3%。[page::12]

5.2 绩效表现

  • 复合因子AlphaGP在2021-2023样本外测试期间超额收益高达20.49%,夏普率1.31,最大回撤-7.74%。

- 表现显著优于传统量价因子如市销率(超额收益8.58%,夏普0.45)、5日换手率(夏普负0.08)、MACD等。
  • 图表18、19展示多因子与传统因子绩效对比统计与业绩曲线,体现了AlphaGP的优势,收益和稳定性均优于对比因子。[page::12][page::13]


6. 总结



报告总结了遗传规划因子挖掘的优化路径及效果:
  • 框架从Gplearn变为Deap,提高了灵活性和控制力。

- 种群初筛剔除约25%低质因子,平均公式长度及适应度均优化。
  • 采用双锦标赛和两点交叉算法,增强模型收敛速度和控制公式复杂度,引入父子竞争保障种群质量。

- 扩大数据采集范围及算子多样性,提升模型复杂结构捕捉能力。
  • 严格控制因子长度和相关性,确保因子简洁且多样。

- 单轮挖掘获得53个优质因子,多因子组合显著超越传统量价因子,获得20.49%年化超额收益及1.31夏普率,体现模型的高实用价值。[page::13]

7. 改进空间



未来拟拓展方向包括:
  • 扩大样本数据范围及迭代次数,提升模型鲁棒性。

- 数据中性化增强因子稳健性。
  • 提升计算能力,利用多进程和GPU加速提升效率。

- 结合深度自动编码器(DAE-GP)技术进行因子降维,进一步优化因子组合结构和表达能力。[page::13]

8. 风险提示



尽管遗传规划和传统量价因子均有实用价值,但两者适合不同市场环境和投资策略。报告告诫投资者结合自身需求和风险承受能力理性使用,注重多元化和风险管理。强调“无万能因子”,工具选用需因地制宜,避免策略失配产生风险。[page::14]

---

三、图表深度解读


  • 图表1 (公式树):以mul(add(x4, x6), max(x8, x13))形式展现公式树,展示遗传规划表达复杂因子结构的能力。

- 图表2 (进化交叉示意):显示两棵父代公式树通过交换局部子树产生子代公式,新组合能继承和融合优质结构。
  • 图表3 (基本流程图):极具启发性的流程图,概括遗传规划的迭代原理,帮助理解算法收敛逻辑。

- 图表4 (优化前后种群对比):柱状图及表格展示剔除低质因子前后种群数量及质量指标,验证初筛效果显著。
  • 图表5和6 (不同回测轨道比较):红色和淡黄色线条展示各轨道的超额收益率和夏普率高度一致,保证模型不受路径依赖影响,提升泛化能力。

- 图表7 (公式长度分布):因子库中公式大多较短,集中于2-5长度,符合可解释性和稳定性的需求。
  • 图表8和9 (抽样因子及相关性矩阵):表格列因子表达式,热力图展现因子间弱相关性分布,体现多样性良好控制。

- 图表10和11 (超参数与算子):表格列超参数配置细节及算子定义,充分展现模型的调优和复杂功能实现。
  • 图表12 (结果日志):显示代数迭代进化中适应度稳步提升,公式长度控制得当。

- 图表13 (53个优质因子):长表展示全部因子及适应度,提供完整因子池信息。
  • 图表14-17 (单因子绩效统计与业绩曲线):详细绩效指标(收益率、波动率、信息比率、回撤、夏普率)和累计表现曲线,验证单因子稳定性和超额价值。

- 图表18-19 (多因子与传统因子绩效对比):表格及曲线显示Alpha
GP的综合优势,超越经典量价因子并稳定实现正超额收益。

---

四、估值分析



本报告侧重因子挖掘与策略构建,未直接涉及传统的估值方法(DCF、P/E、EV/EBITDA等),然而通过因子选股构建的多因子组合部分实现了对市场收益的超额捕捉,等效于因子组合的相对价值创造。因子的“价值”在于其预测能力强,带来优异的风险调整收益率。

---

五、风险因素评估



报告主要指出模型与投资的风险包括:
  • 适用市场和策略区间的选择风险——不同市场状况适用不同量价因子组合,模型表现存在条件依赖。

- 模型潜在过拟合风险——虽采取多项防控措施,但过度迭代和复杂度仍可能导致模型拟合历史而非未来。
  • 相关性限制和多样性约束的权衡——严格相关性阈值或减少因子多样性,影响模型扩展性。

- 计算资源限制——复杂演化过程对算力高要求,限制了迭代轮数和深度拓展。
风险提示表明,投资者应注重工具的多元匹配及合理的风险控制,如调仓频率与仓位管理等。[page::14]

---

六、批判性视角与细微差别


  • 潜在偏见:模型偏重于截面Rank IC绝对值作为适应度核心,可能忽视收益的时间序列稳定性和市场环境变化的适应性。

- 假设稳健性:报告中对适应度函数和进化操作均有详尽设计,但投资组合实际波动风险管理的细节不多,有待进一步强化动态风险调整框架。
  • 模型复杂度与可解释平衡:虽然通过惩罚措施控制了因子长度,但部分因子表达依然较为复杂,可能影响组合透明度和实操可复制性。

- 内部一致性:报告在“避免路径依赖”与“因子多样性”方面提供了充分论据,策略和数据使用逻辑连贯,框架合理。
  • 改进建议:报告对未来扩大计算能力、引入深度学习降维等前沿技术的规划较为合理,但具体技术落地方案与评估可更详尽。


---

七、结论性综合



本报告以遗传规划为技术核心,构建了一套具有高度灵活性和创新性的股票因子挖掘优化模型。通过算法框架升级(Deap替代Gplearn)、精选初始种群和改良进化算法(双锦标赛、两点交叉、父子竞争),有效抑制了公式膨胀和因子趋同,保障了因子库质量和多样性。

扩展数据范围和算子集的策略提升了模型宏观适应力和因子复杂度表达能力,进而有效挖掘出53个优质因子,组成的多因子投资组合在2021-2023年样本外测试中取得了20.49%的年化超额收益率和1.31的夏普率,显著超越传统量价因子,验证了该遗传规划优化模型的优越性和实用价值。

图表数据系统反映了算法进化的迭代逻辑、因子质量控制、单因子与组合绩效,充分体现了技术手段与实证效果的结合,为量化选股因子研究提供了有力参考。未来模型拟通过技术升级与降维手段进一步提升性能并扩展应用场景,值得关注。

总的来说,报告结构严谨、论据充分,技术创新与实测成果兼具,为遗传规划在因子挖掘领域的应用提供了系统方法论和实务指导,具有较高的行业价值和参考意义。[page::0,2-14]

---

附图示例



图表1:遗传规划-公式树


图表5:不同回测轨道对比(年化超额收益率、夏普率)


图表7:因子库公式长度分布


图表9:抽样因子相关性


图表15:单因子Alpha8业绩曲线


图表19:复合因子与传统量价因子业绩对比


---

(全文分析字数约1600字,覆盖报告各章节及所有关键图表内容,术语解释清晰,逻辑严密,信息完整。)

报告