`

再探基于遗传规划的选股因子挖掘华泰人工智能系列之二十三

创建于 更新于

摘要

本报告基于遗传规划选股因子挖掘,提出因子互信息和多头超额收益两种新适应度指标,增强了因子捕捉非线性收益关系的能力。通过三次方回归残差法和多项式拟合法改进非线性因子应用,并引入交叉验证环节控制过拟合。测试包括20多个因子,分层测试显示互信息因子呈现“中间层收益高,两端低”特性,转换方法改善因子与收益线性关系,验证了遗传规划在挖掘多样化高效选股因子上的潜力,为多因子机器学习模型提供基础支持。[pidx::0][pidx::4][pidx::30]

速读内容

  • 本文扩展了遗传规划选股因子挖掘,新增适应度指标:互信息衡量因子与收益间非线性关系,多头超额收益适应部分投资者需求[pidx::0][pidx::4][pidx::30]。

- 互信息指标可捕捉复杂统计依赖,示例中展示了互信息优于F检验捕捉非线性特征的效果(图表2)[pidx::4][pidx::5]。
  • 非线性因子转换方法包括三次方回归残差法(来源BARRA NLS方法,图表3)和多项式拟合法,后者适用性更广、效果更佳但需针对因子逐个拟合[pidx::6][pidx::7]。

- 引入交叉验证控制遗传规划过拟合,通过训练集和验证集适应度的收敛判定算法终止条件(图表4)[pidx::7]。
  • 测试覆盖全A股,剔除ST、PT及涨停停牌股,回测期2010-2019,适用原始因子和函数集合生成公式,计算因子经多步骤处理后的适应度指标[pidx::8][pidx::9]。

- 利用分层测试法评估因子表现,分层测试揭示非线性因子表现为“中间层收益高,两端收益低”的稳定特性[pidx::10]。
  • 互信息适应度挖掘的Alpha1~Alpha6因子分层测试中,非线性因子通过多项式拟合法转换,线性相关关系显著增强,提升超额收益稳定性。三次方回归残差法转换较简单但效果相对欠佳(详见图表11~16、17~22、23~28、29~34、35~40、41~46)[pidx::12 ~ pidx::24]。

- 多头超额收益适应度挖掘的Alpha21~Alpha24因子分层测试结果显示部分因子具备较高年化超额收益率,并分别展示了相关性矩阵及因子详细分层回测表现(图表47~60)[pidx::25 ~ pidx::29]。
  • 结论强调遗传规划结合新适应度指标和非线性因子转化方法,在挖掘非线性、多样化选股因子方面展现出优势,有助于提升机器学习选股模型的表现,同时提醒风险和模型适用场景限制[pidx::30]。

深度阅读

金工研究报告《再探基于遗传规划的选股因子挖掘》详尽分析



---

一、元数据与概览


  • 报告标题:《再探基于遗传规划的选股因子挖掘 华泰人工智能系列之二十三》

- 作者:林晓明、陈烨、李子钰、何康
  • 发布机构:华泰证券研究所

- 发布日期:2019年08月07日
  • 研究主题:利用遗传规划(Genetic Programming,GP)改进和挖掘股票选股因子,重点提升因子质量及挖掘非线性因子的能力。


核心论点:



本报告基于华泰证券早期报告《基于遗传规划的选股因子挖掘》(2019.6),提出三大改进方向,旨在增强遗传规划挖掘因子的能力。具体包括:
  1. 引入新的适应度评价指标:因子互信息与多头超额收益。

2. 探索非线性因子的使用和转换方法,包括三次方回归残差法和多项式拟合法。
  1. 通过交叉验证引入验证环节,降低模型过拟合风险。


报告最后展示了20多个改进后挖掘出的选股因子,并对其性能进行了详尽的测试和分析,指出遗传规划具备挖掘丰富非线性因子的潜力,对基于机器学习的多因子模型建设具重要意义。[pidx::0][pidx::30]

---

二、逐节深度解读



2.1 遗传规划的回顾及改进方向(第4-7页)


  • 遗传规划原理及流程

遗传规划通过模拟自然选择机制,随机初始化公式群体,根据适应度指标选择表现优良的“父代”进行遗传变异,迭代进化出更优的选股公式(见图表1)。
  • 改进一:新的适应度指标

以往仅使用Rank IC(线性相关性)为适应度,报告提出引入互信息——该指标捕捉因子和收益间的非线性依赖。互信息公式基于概率密度函数定义,能量化两个变量共享信息的多少,适用于发现线性相关性无法捕捉的复杂关系(图表2示例直观对比F检验与互信息的能力)。此外,引入“多头超额收益”作为适应度,利用分层回测组合的年化超额收益衡量因子实用价值,兼顾投资者对实战收益的关注。
  • 改进二:非线性因子使用方法

线上分为两类:
1)因子合成时就加入机器学习模型拟合因子与收益的非线性映射。
2)对单因子进行非线性变换,转换为线性化因子,具体技术为:
- 三次方回归残差法(灵感来源于BARRA规模因子特征提取),构建非线性规模因子,通过原始因子与其三次幂的线性回归残差作为非线性变换结果,示意见图表3。
- 多项式拟合法,通过回归拟合收益对因子的三次多项式模型,实现因子功能的非线性映射转换,滚动窗口更新回归参数,转换灵活且拟合效果更优,但需针对每个因子单独拟合,通用性差。
  • 改进三:交叉验证控制过拟合

为防止因遗传规划持续优化训练集表现而导致的过拟合,加入数据集划分为训练集和验证集,对每代生成因子同时在验证集计算适应度,监控验证集适应度收敛状态(图表4),在收敛时终止进化过程,确保因子稳健性。

2.2 测试流程和结果(第8-9页)


  • 测试设计

- 股票池为全A股,排除ST/PT、涨停及停牌股票;回测区间2010年1月4日至2019年7月31日。
- 按时间前80%截面为训练集,后20%为验证集。
- 利用原始价量因子集(图表5)及函数集(图表6),目标是预测20个交易日后的个股收益率。
- 因子计算后需去极值(中位数±5倍中位距处理)及多因子中性化(行业、市值、收益率、换手率、波动率)。
  • 统计表现

以互信息为适应度,训练集和验证集适应度均呈现递增且趋于收敛趋势(图表7),相较以往方法,加入交叉验证有效控制过拟合。

2.3 互信息适应度因子单因子测试及分层测试方法(第10-24页)


  • 分层测试法解释

分层测试打破回归法线性假设,划分因子暴露度层级,观察中间层因子的收益表现,挖掘非线性策略效能。
配置月度换仓,多空组合收益基于Top层减Bottom层股票等权收益,交易费假设单边0.15%。
  • 多因子挖掘表现

遗传规划基于互信息指标挖掘的20个Alpha因子整体呈现中间层组合年化超额收益更高的非线性特征(图表8,图表9)且因子间相关性整体不高(图表10),为实现因子的多样性及提升组合稳健性提供保证。
  • 因子案例详细分析

以Alpha1至Alpha6为例:这些因子多基于交易量、换手率、成交价相关的时序协方差反向值构造。原始非线性因子对应收益表现呈现非单调特征(最高正收益出现于中间层),说明其非线性关系明显;使用三次方回归残差法的转换处理略有改善单调性,但不完全;而多项式拟合法转换后,多数因子收益分层表现出严格单调递增或递减趋势(图表11-46),极大提升了因子线性可利用性及解释性。
  • 两种非线性转换方法评估

概括来说,三次方回归残差法实现简单但效果相对较差,多项式拟合法效果更佳但每个因子需单独拟合,缺乏通用性。[pidx::4][pidx::5][pidx::6][pidx::7][pidx::8][pidx::9][pidx::10][pidx::12][pidx::13][pidx::15][pidx::17][pidx::19][pidx::21][pidx::23][pidx::24]

2.4 多头超额收益适应度因子的单因子测试(第25-29页)


  • 遗传规划以多头超额收益作为适应度指标,挖掘Alpha21至Alpha24等因子,这些因子以Rank、Sigmoid等函数组合构成,均反映量价的非线性复合特征(图表47)。

- 分层测试显示这些因子大多能获得中层及Top层正超额收益,底层收益相对较低,遵循因子有效性特征(图表49-60)。同时报告关注了对应因子和市值、成交量因子的相关性,考虑流动性风险。此类因子更符合投资者关注的实盘盈利表现评价指标。整体看,该方法挖掘的因子实用性较强。[pidx::25][pidx::26][pidx::29]

2.5 结论与风险提示(第30页)


  • 结论

- 第1改进点采用互信息,可挖掘包含丰富非线性股票收益信号的选股因子,较传统Rank IC因子更广泛。因子在分层测试中表现为“中间层收益高,两端收益低”的非线性格局。
- 第2改进点提出两种非线性因子转换手段,实现非线性因子线性化,有助于多因子模型的使用与解释,二者各有优劣。
- 第3改进点引入交叉验证,避免进化过程中产生过拟合现象,增强因子稳定性。
- 测试中产生的20余个因子为后续多因子模型提供了宝贵备选。遗传规划挖掘非线性因子的潜能被充分验证。
  • 风险提示

报告强调该类因子基于历史数据构建,未来若市场结构变化,因子有效性可能失效。因子多为非线性复杂表达,解释性弱,应用需谨慎。测试结果仅适用于A股市场,不能简单套用至其他市场或股票池。[pidx::30]

---

三、图表深度解读



3.1 图表1:遗传规划总体流程


  • 说明遗传编程从随机公式开始,经过不断计算适应度,选出生存的父代公式并进化产生子代,循环迭代直到收敛选出最终公式。
  • 体现遗传规划通过模拟自然选择,自动寻找复杂公式表达适合的数据特征,适合挖掘复杂股价因子。[pidx::4]


3.2 图表2:互信息与F检验示例


  • 通过三个特征变量[X1,X2,X3]与目标y配对分析,证明互信息能发现y与X2间的非线性强关系,而F检验仅发现y与X1的线性关系,X3无关。
  • 突出互信息对非线性关系的灵敏度,为后续非线性因子挖掘提供理论支持。[pidx::5]


3.3 图表3:三次方回归残差转换示意


  • 横轴为原始规模因子暴露,三条曲线分别是原始因子、其三次方及经过回归残差转换的非线性规模因子(NLS)。
  • 显示NLS峰值聚焦在中端,不同于单调原始因子,实现了有效非线性变换,有助捕捉中等规模股票的特有收益特点。[pidx::6]


3.4 图表4:交叉验证流程图


  • 详解遗传规划迭代中同时在训练集训练和验证集计算适应度,通过观察验证集适应度曲线收敛来终止迭代。
  • 此设计显著减少过拟合风险,提升因子稳健性。[pidx::7]


3.5 图表7:遗传规划适应度曲线


  • 展示随着遗传世代增加,训练与验证集上的平均适应度同步提升并趋于平稳,交叉验证有效防止了训练集适应度过拟合。
  • 验证本报告改进方向3有效运行。[pidx::9]


3.6 图表8-10及后续因子分层测试图表(图表11-60)


  • 多达40余张图详尽显示了代表性Alpha因子的表达式、相关性矩阵和分层测试结果。
  • 各因子大多呈现“中间层组合具最高收益”的非线性表现。
  • 非线性转换(图表13、14等)使因子分层收益表现更线性化和单调化,有利量化模型利用。
  • 多头超额收益指标下筛选的Alpha21至Alpha24同样展现稳健回报表现。
  • 相关性矩阵表明挖掘出的因子多样、互补,具备构建有效多因子组合可能。[pidx::10~29]


---

四、估值分析



本报告内容为选股因子挖掘方法学展示,无直接企业或股票个体估值,未涉及DCF、市盈率等传统估值方式。

---

五、风险因素评估


  • 因子依赖历史市场规律,未来市场结构变化可能导致因子失效。
  • 挖掘出的因子过于复杂,缺乏明确经济解释,可能影响投资者和量化策略应用的理解和信心。
  • 报告所测试仅限于全A股股票池,跨市场及小样本验证有限,推广能力受限。
  • 整体因子挖掘基于机器学习方法,黑箱特性需谨慎对待。
  • 应用因子时务必结合多因子稳定性和风控框架。[pidx::30]


---

六、批判性视角与细微差别


  • 报告在改进互信息适应度指标时强调了非线性因子的优势,但相应地,非线性因子复杂性及解释性下降可能带来策略调整难度和过拟合风险。
  • 多项式拟合法虽转换效果较优,但需要针对每因子单独拟合回归参数,模型泛化能力依旧受限,实操中维护成本较高。
  • 报告核心测试均为A股全样本回测,缺乏行业或时间段分拆的细化分析,以验证因子一致性。
  • 对多头超额收益作为适应度指标的因子,报告虽展示了多个优良因子,但对于极端行情下的稳定性分析不足。
  • 交叉验证有效缓解过拟合,但报告未详述数据划分比例和验证集规模对模型效果的敏感性。
  • 总体而言,报告基于严谨测试方法论述,但因子“黑箱”特性仍是未来研究和实操应用中的一大挑战。


---

七、结论性综合



本报告围绕如何通过遗传规划技术进一步挖掘金融市场中更具非线性特征的选股因子提供了系统的理论、方法和实证研究。通过引入互信息作为适应度指标,能够识别出传统线性方法难以捕捉的复杂市场规律。非线性转换手段(尤其是多项式拟合法)有效将非线性因子线性化,提升因子在实务中多因子模型的适用性。交叉验证在遗传规划迭代中融入,显著降低过拟合,提高因子稳健性和泛化能力。

大规模因子挖掘及分层测试结果证明,多数因子呈现“中间层收益优于两端”的非线性分布,这一发现为机器学习及智能选股模型利用非线性信号打开了新的空间。多头超额收益适应度指标同样让用户能够发掘实操中更直接产生正向收益的因子。

图表丰富且详实,尤其分层测试表现突出展示了非线性因子的优势和转换手段的改进效果。因子相关性分析保障了组合构建多样性。报告最后的风险提示明示了该类模型基于历史数据,带来的失效风险及复杂性。

总体来看,本文在遗传规划选股因子挖掘领域做出了显著创新和突破,方法论和实证结果为后续学术研究及实务应用提供了重要参考价值和技术路径。[pidx::0][pidx::4][pidx::5][pidx::6][pidx::7][pidx::8][pidx::9][pidx::10][pidx::30]

---

主要引用图表列表


  • 图表1 遗传规划的总体流程

- 图表2 互信息与F检验对比示意
  • 图表3 非线性规模因子转换示意

- 图表4 交叉验证流程图
  • 图表7 遗传规划适应度曲线(互信息)

- 图表8-10 互信息适应度挖掘出因子的表达与相关性
  • 图表11-46 Alpha1~6分层测试及非线性转换效果对比

- 图表47-60 多头超额收益适应度指标挖掘的因子及测试结果

(对应多张趋势图展示因子分层净值增长曲线及年化超额收益率柱状图)

---

本分析忠实反映报告信息,详尽解读其理论架构、关键数据及实证结果,力求为研究人员和投资实务者提供深入理解及应用参考。

报告