`

华泰金工 | 双目标遗传规划应用于行业轮动

创建于 更新于

摘要

本报告提出一种双目标遗传规划模型应用于周频行业轮动,通过同时以|IC|和NDCG@k作为因子适应度函数,有效缓解传统遗传规划种群拥挤问题,挖掘出兼顾因子单调性和多头组表现的因子。实证显示,2022-09-30至2024-04-30期间,该模型扣费前年化超额收益达25.74%,夏普比率1.70,年化换手率约13倍,显著优于单目标遗传规划模型,并在市场主线减弱、行业轮动加速背景下表现稳定,具有较强适应性和实用价值。[page::0][page::1][page::9][page::10][page::13]

速读内容

  • 市场背景与传统月频模型不足 [page::1][page::2]:

- 2022Q3电力设备及新能源行情结束后,市场主线强度减弱,行业轮动速度加快,导致月频行业轮动模型的超额收益率由约17%下降至7%,且换手率上升约40%。
  • 选股因子合成行业轮动因子局限 [page::4]:

- 行业轮动因子有效性受限于选股因子中的行业Beta信息,行业中性化处理会剔除行业轮动信息,导致行业轮动因子失效。
  • 双目标遗传规划框架及优势 [page::0][page::6][page::7]:

- 遗传规划包含交叉变异、适应度评估和子代选择。
- 单目标遗传规划存在种群拥挤、适应度单一不足的问题。
- 本文提出同时以|IC|和NDCG@k作为双目标,|IC|衡量因子单调性,NDCG@k侧重多头组表现,引入NSGA-II算法,维护种群多样性。



  • 因子适应度函数定义及挖掘细节 [page::9][page::10][page::11][page::12]:

- NDCG@k用于评估多头组表现,指定k=5;|IC|侧重因子整体单调性。
- 设计初期将种群规模设为2500,进化次数10,初始种群划分为50个小种群以防“超强基因”垄断。
- 模型每3个月重新训练一次,6个随机种子执行6轮因子挖掘,采用贪心策略合成综合因子,采用指数移动平均降低换手率。
  • 量价数据因子构建及回测表现 [page::5][page::13]:

- 基于Level2及分钟K线的高频因子与日、周、月频量价数据融合构建选股因子,综合权重25%高频因子、75%低频因子。

- 双目标遗传规划构建的周频行业轮动模型回测累计净值显著优于基准,扣费前年化超额收益率达25.74%,夏普比率1.70,最大回撤约-21.47%。
  • 单目标遗传规划消融实验 [page::14]:

- 以|IC|或NDCG@k为单目标适应度的单目标遗传规划模型回测表现均明显逊色,NDCG@k单目标模型甚至跑输行业等权基准。

  • 未来改进与思考 [page::14]:

- 双目标对抗机制为因子挖掘带来不同路径,建议后续尝试在端到端监督学习中引入类似机制。
- 时序切割因子和成交额相关变量为挖掘频繁出现的“优秀基因”,反映分域建模和市场资金环境的重要性。
- 当前算法存在随机数控制不足、表达式冗杂缺陷,未来可通过增加约束、扩展输入变量和算子库进行优化。
  • 风险提示与声明 [page::15][page::17]:

- 遗传规划挖掘的规律可能失效,模型适用的市场条件有限,具体行业不构成投资建议,投资需谨慎。

深度阅读

华泰金工|双目标遗传规划应用于行业轮动研究报告深度分析



---

1. 元数据与报告概览


  • 报告标题:双目标遗传规划应用于行业轮动

- 作者:林晓明、徐特
  • 发布机构:华泰证券金融工程

- 发布时间:2024年5月24日
  • 研究主题:应用双目标遗传规划技术挖掘周频行业轮动因子,构建周频行业轮动策略以适应当前市场快速轮动、主线弱势的行情环境。


核心观点
  • 报告提出了双目标遗传规划模型。

- 该模型以|IC|(因子与未来收益单调相关度绝对值)和NDCG@k(关注多头组表现的排序指标)作为双适应度函数。
  • 双目标框架通过NSGA-II算法实现对抗式选择,有效缓解传统单目标遗传规划中种群拥挤和适应度评价维度单一的问题。

- 实证结果显示,2022Q3至2024Q2期间,基于双目标遗传规划的周频行业轮动模型年化超额收益达25.74%,夏普比率1.70,最大回撤-21.47%,且换手率相较月频模型有较好的控制优势。
  • 同时,实证对比表明,双目标遗传规划明显优于仅以|IC|或NDCG@k单目标优化的遗传规划模型表现。


总体来看,作者旨在传达的是:通过引入双目标遗传规划技术,可以在当前市场环境下显著提升周频行业轮动策略的稳定性和收益表现,突破传统单目标遗传规划的短板,实现了因子挖掘和策略构建上的质的飞跃。[page::0]

---

2. 逐节深度解读



2.1 正文导读与背景分析



背景一:市场主线弱,月频行业轮动模型失效


  • 通过对月频行业轮动模型的回测发现,自2022年Q3电力设备及新能源行情结束后,月频模型的超额收益明显下降(由约17%降至7%)。

- 换手率同期提升40%,反映行业轮动节奏加快,行业投资机会持续时间缩短。
  • 作者设计“市场主线强弱指标”,用于度量市场不同期限均表现靠前行业的集中度和活跃度,发现该指标与月频策略超额收益正相关(相关系数0.36)。

- 结论是主线弱、轮动快的市场状态不利于月频策略继续获利,背景导致研究者转而关注周频策略,尝试以更高调仓频率捕获行业轮动。

背景二:选股因子合成行业轮动因子的有效性争议


  • 普遍思路是用选股因子加权形成行业轮动因子。但行业中性化处理会剥离行业信息,使轮动因子失效。

- 不中性化时,选股因子中多为个股Alpha信号,则行业轮动因子仍难有效;仅当选股因子包含行业Beta信息时,合成的行业轮动因子才可能有效。
  • 报告里基于高频与全频量价信息通过端到端有监督学习得到的选股因子,在不做行业中性化情况下,周频行业轮动策略表现了良好的持续超额收益和强适应性(2022年9月前后超额收益分别为22%和24%),展示了基于多频数据构建的选股因子合成因子的可行性。


总结背景部分:当前市场氛围下,传统月频行业轮动模型受到行业轮动节奏加快和主线弱势的冲击,表现下滑。通道是高频量价因子驱动的周频行业轮动成为突破口,但选股因子合成轮动因子的路径存在潜在的有效性风险,这促使直接基于行业指标挖掘有效周频行业轮动因子的需求。[page::1,2,3,4,5]

2.2 遗传规划原理及双目标遗传规划设计


  • 遗传规划属于进化算法,流程包括初始化、交叉变异、适应度评估、子代选择和迭代进化,因子表达式以树结构存储。

- 单目标遗传规划单一目标(如|IC|)作为因子优劣标准,导致只能单维度优化,忽略了因子不同方面的表现,且有严重“种群拥挤”局限,即多个个体基因趋同,降低多样性,限制搜索空间有效性。
  • 报告类比明代科举制度来形象说明单目标优化导致的“满纸八股文”式因子同质化。

- 双目标遗传规划为了克服该局限,引入两个目标函数(本研究为|IC|和NDCG@k),通过NSGA-II算法实现:
- 适应度评估阶段同时评估两个目标。
- 子代选择阶段使用快速非支配排序和拥挤距离计算确保多样性,优先保留在两个目标上不被其他个体支配且空间相对不拥挤的个体。
  • 双目标遗传规划在保存优秀因子的同时更好地保持种群多样性,有利于发掘兼顾单调性和多头表现的复合因子。


此外,报告详细介绍了NSGA-II内核概念:
  • 支配与非劣

- 非支配前沿面划分
  • 拥挤距离用于同一前沿面个体排序

- 精英选择策略结合父代与子代共同优选

双目标遗传规划最终有助于避免种群提前收敛、鼓励多样化探索,是对单目标遗传规划设计的根本性提升方案。[page::5,6,7]

2.3 遗传规划算子与计算架构


  • 遗传规划所用算子由前期报告基础上扩充至64个,分为元素级运算、截面运算、时序运算、时序切割算子(详细分类见图表18-21)。

- 算子实现基于PyTorch,可利用GPU加速,虽然本研究轮廓下样本规模较小、计算量有限,但预留了向选股场景(高维度截面)扩展的弹性。

该算子设计为复杂因子表达提供丰富的基因库支持,充实了模型表达能力,为高质量因子挖掘奠定基础。[page::8]

2.4 适应度函数的双目标选择


  • |IC|关注因子值与未来收益的单调相关方向性,反映因子整体排序效率,但对多头端贡献不能细分。

- NDCG@k针对因子值排名靠前(通常为多头组)行业收益评分构建归一化折损累计增益,更关注多头组合的表现优劣。
  • 组合|IC|和NDCG@k为双目标,确保因子能兼顾单调性和多头端收益贡献,规避单一目标优化下的“高IC低多头”或“高多头低单调”局面。

- 公式详解了NDCG@k的计算步骤和归一化过程,设k=5(多头组行业数)。

同时,报告强调了维持种群多样性的工程细节和风险:
  • 交叉概率(0.8)和变异概率(0.3)设计保证优秀基因有较高继承概率,但仍允许变异引入新基因。

- 种群规模选取(2500)远大于进化轮数(10),用足够量的初始多样性抵御因子提早收敛。
  • 初始种群划分为50个小群体平行进化,避免“超强基因”过度垄断整个种群,类似大陆分裂模式保留多样性。


整体来看,双目标设计为技术路径,辅以细致的工程手段落实多样性维护,是模型性能提升的重要保证。[page::9,10,11]

2.5 因子挖掘与多因子合成过程


  • 因子挖掘采用滚动窗口机制,训练集约5年数据,验证集和测试集各约半年,严格预防信息泄露和过拟合。

- 训练集优化的因子通过验证集和测试集的回测超额收益及持续性检验(单边t检验p值)进行筛选,确保因子稳定性。
  • 每次重训练时,采用6个不同随机数种子分别挖掘因子,随后通过贪心策略从备选因子池中挑选10个,基于信息比率和相关性逐步合成综合因子。

- 综合因子经指数移动平均降频为周频因子,平滑表现,降低换手率,同时契合标签期设计(未来10个交易日收益率)。
  • 调仓方式为每周六选择综合因子排名前五行业,次周以等权买入,调仓价格以开盘、最高、最低、收盘价均值为准,体现实战可行性。


该流程兼顾理论有效性和实际实施细节,展现了系统性完整的因子工程体系。[page::12,13]

2.6 实证结果与消融实验


  • 双目标遗传规划周频策略,2022年9月至2024年4月实现扣费前年化超额收益25.74%,夏普1.70,最大回撤-21.47%。

- 同期对比基准为中信行业等权组合,展现显著超额表现。
  • 与传统单目标遗传规划模型相比,双目标模型表现优势明显,单目标|IC|优化虽略优于基准,但波动较大,头部因子稳定性不足;单目标NDCG@k优化则表现不及基准,策略无效。

- 图表中净值曲线充分体现双目标模型的连续盈利能力和峰谷波动的平滑优势。
  • 报告还指出因子挖掘所得当选因子主要集中在时序切割因子和成交额相关变量,诠释”分域建模“和量价配合的重要性。


此外,报告承认:
  • 双目标遗传规划有待在更多场景(如选股)验证其普适优势。

- 随机性控制尚需加强,如交叉和变异操作也应加入随机数种子控制,完善因子可复现性。
  • 可尝试引入更多输入变量和限制条件优化算子表现,以拓宽搜索空间质量。

- 同时对算力要求适中,普通办公电脑即可完成全部计算任务,匹配行业实际应用需求。

可见,实证充分且清晰,呈现了新方法的独特成效并坦诚需进一步完善的技术细节。[page::13,14]

2.7 风险提示


  • 历史规律可能失效且不同市场环境下策略表现差异明显。

- 月频和周频策略各有场景适用性,无法保证在所有市场状况均有效。
  • 相关行业选择不构成具体投资建议。


风险提示客观合理,符合数量策略通用风险说明规范。[page::15]

---

3. 图表与数据深度解读



图表1(page 1):遗传规划周频行业轮动模型净值


  • 曲线显示从2022年9月起该模型表现出显著超额收益,净值走势稳健上升,整体超过基准组合。

- 右轴净值比维持在1.3-1.45区间,表明策略收益稳健。

图表2(page 2):月频行业轮动框架示意


  • 模型将行业收益分解为Beta部分(宏观、中观、微观视角的行业景气度子策略)和残差部分(残差动量子策略)。

- 并在两个不相关策略的组合收益基础上构建月频轮动。

图表3(page 2):历史月频轮动净值


  • 净值线直观反映2022年9月后轮动策略表现明显下滑。

- 基准组合处于1.0附近波动,轮动策略净值下跌明显,验证上述模型失效。

图表4 & 图表5(page 3):月频轮动模型2022年9月前后业绩表现对比


  • 9月前表现亮眼,9月后业绩明显萎缩,换手增加,证实市场主线弱及轮动节奏快的特征。


图表6(page 3):市场主线强弱指标计算示例


  • 通过多期收益率排名的截面均值计算强弱指标,设定阈值0.871为强主线下限。

- 该指标能较好判定市场主线强度。

图表7(page 4):市场主线强弱与超额收益相关性


  • 相关系数+0.36表明市场主线强时,月频轮动策略表现较好。

- 近几年主线强度下降,解释月频模型表现滑坡。

图表8(page 4):选股因子有效性与行业轮动因子有效性关系示意


  • 以行业中性化与否及Alpha/ Beta信息比重,说明选股因子对轮动因子有效性的影响机制。


图表9(page 5):全频段量价选股因子构建流程


  • 高频因子序列(fh)和日/周/月频因子(fl)分别用GRU神经网络挖掘,权重合成最终选股因子。

- 融合全频段数据,丰富信息内容。

图表10(page 5):全频段量价周频行业轮动净值


  • 净值稳步增长且超越基准,回测期内表现稳定。


图表11 & 12(page 5):全频段量价模型回测表现2022年9月前后对比


  • 9月后表现依然维持良好,体现强适应性。


图表13(page 6):单目标与双目标遗传规划流程对比


  • 双目标遗传规划在适应度评估与子代选择阶段体现出差异(多目标评价,NSGA-II精英选择),强化多样性维护。


图表14-17(page 7):NSGA-II算法概念示意


  • 详细阐述支配关系、非支配前沿、拥挤距离及精英选择操作,辅助理解双目标遗传规划选择机制。


图表18-21(page 8):遗传规划算子展示


  • 细化算子类别,为因子表达多样性构建了坚实基础。


图表22(page 10):|IC|与NDCG@k指标差异演示


  • 高|IC|低NDCG场景表现多头分组业绩不佳,反之亦然,强调双指标互补性。


图表23(page 11):单轮因子挖掘流程


  • 包括小种群迭代,双目标排序,合并去重等步骤,细节丰富。


图表24(page 12):训练、验证、测试数据时间布局示意


  • 区间划分合理,防止提前数据泄露,保障验证严谨。


图表25-26(page 12):输入变量和参数设置详列


  • 输入26个变量,参数设计严谨,保障模型完整运行。


图表27(page 13):多因子贪心合成流程


  • 通过相关性检验及加权合成,减少冗余,提升组合效能。


图表28(page 13):双目标遗传规划周频行业轮动净值


  • 显著跑赢基准,净值曲线平滑上升,表现优秀。


图表29(page 13):双目标模型业绩细节


  • 超额收益和风险指标优异。


图表30-31(page 14):消融实验—单目标|IC|与NDCG@k模型净值


  • 表现明显不及双目标,NDCG单目标模型跑输基准,验证双目标设计必要性。


---

4. 估值分析



本报告没有涉及传统意义上的估值模型(如DCF、PE等),而是聚焦于基于遗传规划挖掘的量化因子及其策略表现。评价指标使用量化投资常用的超额收益、夏普比率、最大回撤等。因子和策略有效性的衡量核心依赖因子适应度函数(|IC|和NDCG@k)和后验信息比率及滚动样本内外稳定性。

---

5. 风险因素评估


  • 历史规律失效风险:因子及模型基于历史数据训练,滚动窗口中规律可能过期。

- 市场环境适用风险:月频和周频策略依赖市场主线强度及轮动节奏,无法保证所有环境均有效。
  • 数据和模型风险:模型随机性、参数设定会影响因子稳定性。

- 投资者应结合风险提示谨慎使用。

报告对风险给出明确说明,反映量化策略研究的普遍风险意识。

---

6. 批判性视角与细微差别


  • 优势明显:双目标遗传规划有效激发了遗传规划搜索潜力,提升了策略表现,工程细节也较为严谨。

- 不足与潜在改进空间
- 随机种子控制尚不完善(交叉和变异未能完全可控),因子复现性受限。
- 算子集合可扩展性、基本面数据引入等方向未深入探索。
- 仅由|IC|和NDCG@k构成双目标,可考虑扩展其他适应度指标。
  • 潜在偏见:报告侧重展示双目标模型优越,少对失败因子或单目标模型局限进行深入讨论,需关注后续独立验证。

- 内部一致性良好,前后论述逻辑完整,图表充分支持文字论点。

---

7. 结论性综合



本报告系统且深入地阐述了双目标遗传规划在周频行业轮动领域的研究与应用创新。面对当前市场中主线弱势和行业轮动加速导致传统月频模型效力减弱的挑战,作者提出并详细论证了:
  • 采用|IC|与NDCG@k双适应度函数,通过NSGA-II算法实现遗传规划种群多目标进化,保障因子同时具备排序单调性和多头表现优势。

- 维护种群多样性的重要工程设计,如大规模初始种群、分群并行、交叉/变异概率设定等,极大缓解了种群拥挤问题,确保了模型发掘出多样且有效的因子结构。
  • 富含多样算子的遗传规划算子池,为模型表达提供了充足的基因支持。

- 形成完善的因子挖掘验证流程及多因子贪心合成策略,确保了策略的稳定性与可用性。
  • 实证回测清晰显示双目标模型在近两年行情中实现年化超额收益25.74%,夏普1.7,最大回撤-21.47%,明显优于单目标模型及传统月频轮动模型。

- 消融实验严谨验证双目标设计的必要性,单目标模型表现大打折扣。
  • 报告同时冷静提出了随机性控制不足、扩展潜力和工程优化空间,体现科学严谨态度。


图表解读结合文本论证,完整地呈现了模型逻辑与实证成果,具有可读性与实用价值。

总结而言,本报告创见性地利用双目标遗传规划创新了周频行业轮动因子的挖掘路径,解决了传统单目标搜索的局限,切实提升了策略的边际表现和适应市场变化的能力。该研究不仅对行业轮动投资者具有重要指导意义,同时为更广泛的量化因子研究方法论提供了可借鉴的技术范式,具有较高的学术与实践价值。[page::0-17]

---

【整体报告结构概览】


  • 引言与背景分析:市场现状、传统模型表现、选股因子合成问题。

- 遗传规划方法论:单目标遗传规划局限,双目标遗传规划及NSGA-II算法详解。
  • 计算实现:算子设计与实现、适应度指标定义。

- 因子挖掘流程:多轮滚动、验证测试、合成策略。
  • 实证对比分析:双目标与单目标表现对比,策略净值与风险指标。

- 风险提示与讨论:模型潜在风险、工程瓶颈、未来改进方向。
  • 附录:重训练日优秀因子列表、参考文献与风险声明。


---

此详细解构呈现了报告的每个重要论点、数据、假设及结论,重点分析了双目标遗传规划模型的理论设计、工程实现与实证验证,深刻揭示了其在当前行业轮动研究中的价值和局限。

报告