`

系统化择时之路 3-一力降十会

创建于 更新于

摘要

本报告利用遗传规划算法针对择时因子进行系统化挖掘,解决数据时间尺度、搜索空间定位及种群多样性三大痛点。采用高频日内数据及固定公式树结构缩小搜索空间,结合Beam Search优化初始种群,并利用PCA相似度及Family Competition算法维持种群多样性。回测显示,三品种等权策略夏普达2.067,年化收益64.7%,最大回撤20.3%,显著优于传统技术指标表现 [page::0][page::3][page::6][page::9][page::10]。

速读内容


遗传规划择时因子挖掘背景与目标 [page::2][page::3]

  • 传统CTA策略多为规则堆砌,导致模型迁移能力差且适用范围有限。

- 报告借鉴多因子模型的工程化、模块化、解耦思想,将择时问题分解为因子构建、因子合成及组合优化模块。
  • 重点构建显式的公式化择时因子,以提升预测效果。


三大痛点及解决策略总结 [page::3][page::6][page::7][page::8]

  • 数据时间尺度:传统日间数据对绝对收益预测效果差,转而使用日内高维分钟数据。

- 搜索空间定位:通过固定公式树第0层算子大幅缩小搜索范围,提升因子质量;采用Beam Search算法显著提高初始种群质量和搜索速度。
  • 种群多样性保持:利用PCA-similarity降维并剔除高相关因子避免过拟合,采用Family Competition算法防止某些基因过度繁殖,保证基因多样性。


因子挖掘数据与算法参数介绍 [page::8]

  • 样本区间:2016年1月4日至2021年4月30日。

- 输入数据包含分钟级别的期货合约高开低收价格、成交量、持仓量及随机常数1-239。
  • 遗传规划算子涵盖时序统计函数(平均、标准差、最大值等)、基础算术运算(加减乘除)、延迟滞后、幂运算、取符号及倒数等。

- 初始种群大小100,Beam Search参数k=3,相关系数阈值0.7。
  • 适应度函数为三品种(IH, IF, IC)平均时序相关系数。


因子及策略回测表现 [page::9][page::10]



  • 挖掘到的因子值分布符合预期的正态分布,具备明显方向性。

- 三品种等权策略回测累计收益良好,对数净值曲线持续上升。
  • 策略绩效指标:夏普比率2.067,年化收益64.7%,最大回撤20.3%。


总结与展望 [page::10]

  • 传统CTA因子规则堆砌弊端明显,工程化模块化模型框架更具发展潜力。

- 报告方案有效解决择时因子挖掘中的痛点问题,且机器挖掘在先验知识匮乏的情景中优于人工经验。
  • 提供了系统化择时因子的完整构建及挖掘流程,具有较强实用价值。

深度阅读

报告详尽分析报告 —《系统化择时之路 3-一力降十会》



---

1. 元数据与概览


  • 报告标题:《系统化择时之路 3-一力降十会》

- 作者及团队:金融工程团队,主要分析师包括陈奥林、刘昺轶、杨能、殷钦怡、徐忠亚、吕琪等,均拥有中国证券业协会授予的证券投资咨询执业资格。
  • 发布机构:国泰君安证券研究所

- 发布日期:报告中未显示具体发布日期,但可参考相关报告时间,2021年至少之前。
  • 主题:报告聚焦于基于遗传规划算法的择时因子挖掘,主要解决传统择时模型的三大痛点问题:数据时间尺度、定位搜索空间、保持种群多样性,以构建系统化、模块化、工程化的择时因子框架。


核心论点
  • 传统CTA(Commodity Trading Advisor)和技术指标虽仍有效,但其“规则堆砌”的本质降低了模型迁移性和适用范围。

- 本报告提出剥离“规则”并采用遗传规划算法自动搜索择时因子,实现因子模块化和能力提升。
  • 聚焦解决遗传规划在择时领域出现的三大痛点:数据时间尺度选择、搜索空间限制和种群多样性的保持。

- 利用高维度日内数据、Beam Search算法缩小搜索空间和初代种群优化、PCA-similarity及Family Competition算法维系多样性。
  • 机器挖掘因子回测表现优异,三品种组合夏普比率超过2,年化收益64.7%,最大回撤20.3%,显著优于多数传统技术指标。


报告旨在推动择时领域的模型工程化,提升预测能力,增强策略的稳健性和迁移适用性。[page::0,1,2,3,10]

---

2. 逐节深度解读



2.1 引言(第2页)



本节回顾了上一期报告的内容,指出计算能力的提升使得因子遍历成为可能,故因子检验函数的设计应居于核心地位。传统择时因子多采用夏普率作为目标,但夏普率不足以反映尾部风险和对大行情的掌控,报告建议更多关注策略收益的偏度。基于策略信号与标的对数收益的相关系数作为更合理的目标函数,转而研究择时因子构建和挖掘。

提出显式特征(公式化的择时因子)构造是本阶段重点,将解决以下三大技术难点:
  1. 数据时间尺度

2. 定位搜索空间
  1. 保持种群多样性。[page::2]


---

2.2 择时因子构建(第2—3页)



2.2.1 传统CTA的规则堆砌



本部分总结传统CTA因子构建演变路径,起点是简单的双均线策略(短均线上穿则做多,反之做空)。为完善策略,引入规则补丁(如只做多、成交量突破、收益过滤等),但结果演变成规则复杂、框架混乱、迁移性差的堆砌,限制了模型的广泛应用和理解。

2.2.2 工程化、模块化、解耦



启发于股票多因子模型的成功,报告提出将择时问题用多因子模型思想解耦为:
  1. 因子构建(构造单个基础因子)

2. 因子合成(规则剥离、非线性整合)
  1. 组合优化


这样可以将原本“规则”部分从因子构建中剥离,转移至因子合成模块,使框架统一且模块化,便于后期扩展和优化。

举例:传统双均线因子用 $\log(MA(close,20)/MA(close,60))$ 表示,规则用一个过滤函数 Filter 封装,形成模块化导向,淡化规则数量,以模块组合方式处理择时因子逻辑。[page::2~3]

---

2.3 择时因子挖掘(三大痛点)(第3—4页)



遗传规划是挖掘因子常用工具,但应用于择时领域有明显缺陷:

2.3.1 数据时间尺度问题


  • 多因子选股多用日间数据,因目标为相对收益、自相关高,持仓稳定。

- 择时目标为绝对收益、自相关极低,仓位变化灵活,日间数据不适用。
  • 自相关低资产使用日内更高频维度数据更有效。

- 自相关性的统计图示(图1)表明不同风格因子和宽基指数的自相关水平,支持采用日内数据。

2.3.2 定位搜索空间



遗传规划存在:
  • 种群内变异有向,种群外变异无向。

- 搜索空间庞大,涌现大量无效无向因子。
  • 容易陷入局部最优,且择时因子需要因子本身具备方向性。


图2、图3展示的两个初步挖掘因子的值分布“怪异”,适应度虽不低,但分布不符合有效因子特征。常用的信号突破分位数和时序标准化方法存在参数确定难问题或未来函数问题。

关键词:理想择时因子因子值分布应与标的收益分布完全一致,且呈现正态、带方向性(图5与图6),这也启发固定公式树第0层算子,缩小搜索空间。

2.3.3 保持种群多样性



多因子挖掘需要多个低相关因子提升整体预测能力、降低过拟合风险。采用以下解决方案:
  • 使用PCA-Similarity方法通过降维计算因子相关性,降低计算复杂度。

- 引入Family Competition算法,在遗传规划交叉繁殖过程加入家庭内部竞争,防止单一根部基因过度繁殖浪费计算资源(图8)。[page::3~8]

---

2.4 算法实现细节(第6—8页)


  • 通过Beam Search算法提升初始种群质量,减少搜索无效空间,提升收敛速度(图7详细示意)。

- 固定公式树第0层算子,舍弃部分非优因子,兼顾搜索效率与质量。
  • 输入的分钟级数据涵盖高开低收价格、成交量、持仓量及大量随机常数。

- 遗传规划基础算子涵盖统计时序函数(均值、标准差、协方差、相关系数等)和算术操作(加减乘除、平方根、对数等)。

2.5 结果展示(第9页)


  • 采用2016年初至2021年初的全样本进行回测。

- 三品种(IH、IF、IC)等权策略在时序相关系数上的适应度显著,因子值走势符合正态分布特征(图10)。
  • 回测期间策略表现卓越,夏普率达2.067,年化收益64.7%,最大回撤20.3%(图11对数净值曲线)。

- 本策略明显优于业内认知的大多数技术指标,显示出机器挖掘在无先验环境下的优越性。[page::8~10]

---

2.6 总结(第10页)


  • 传统CTA模式规则堆砌弊端明显,亟需更模块化、工程化的解决思路。

- 本报告沿用多因子模型的模块分解思路,针对遗传规划三大痛点提出专门解决方案:
1. 使用分钟级日内数据适应择时需求
2. 固定0层算子、大幅缩小搜索空间和提高质量
3. Beam Search提升初始种群质量,加速优化过程
4. PCA-Similarity 降维计算相关性,提高效率并保持多样性
5. Family Competition 控制基因过度繁殖,维护种群多样性
  • 方案促使得择时因子具有合理正态分布及方向性,策略性能表现优异,具备推广潜力。[page::10]


---

3. 图表深度解读



图1:风格因子及宽基自相关性(第4页)


  • 展示多种风格因子和宽基指数的自相关系数,发现多数风格自相关率高于宽基指数。

- 结论:绝对收益的自相关性低,适合用更高频数据(分钟)而非日内数据进行预测。
  • 图中HS300和上证50的自相关值明显低于其他因子,强调择时预测的困难性。


图2 & 图3:Factor0和Factor1因子值分布(第4-5页)


  • 展示遗传规划早期产生的两个因子数值分布,发现两峰分布且分布怪异,不符合正常或正态分布。

- 虽适应度不低,但具备无方向性,预测效用受限。

图4:中证500滚动120日标准差(第5页)


  • 描绘市场波动率的明显变动及异常区间,说明时序标准化极易引入未来函数,因而不适合择时因子处理。


图5、图6:理想收益分布与传统双均线因子值分布对比(第6页)


  • 图5中证500收益分布呈现近似正态,符合金融市场基本模型假设。

- 图6双均线因子分布近似收益分布,支持因子宜呈正态分布并带方向性理念。

图7:Beam Search示意(第7页)


  • 说明Beam Search算法如何在搜索过程中挑选多条最优路径,避免全空间盲搜,提升搜索效率及初始种群质量。


图8:Family Competition算法示意(第8页)


  • 描述家庭内部竞争机制,通过子代优于父代淘汰,防止某一遗传根基过度扩张,维护种群多样性。


图10、图11:最终因子分布及三品种等权回测绩效(第9页)


  • 图10最终挖掘出的因子值呈合理正态分布,数值集中稳定。

- 图11三品种等权策略净值呈平稳持续上升趋势,且在对数刻度下凸显良好收益与风险比。

结合文本说明,回测夏普超2,年化收益超64%,最大回撤控制在20%左右,显示策略的亮眼表现及稳定性。[page::4~9]

---

4. 估值分析



本报告聚焦因子挖掘与择时策略构建,没有涉及具体股票或行业估值分析,故无估值模型和目标价内容。

---

5. 风险因素评估



报告内未专门设立风险章节,但部分风险隐含于技术讨论中:
  • 数据选择风险:采用分钟级高频数据可能带来噪声和数据处理复杂度,需保证数据质量稳定与有效。

- 模型过拟合风险:遗传规划易陷入局部最优,相关算法与多样性维护尝试缓解,但不能完全消除过拟合可能。
  • 参数设定风险:Beam Search参数、相关系数阈值等设定敏感,参数不当可能导致因子质量下降。

- 多样性丧失风险:种群多样性维护不足会导致收敛到局部最优,影响策略泛化能力。
  • 实际交易风险:回测未充分反映滑点、交易成本、市场冲击风险,可能影响策略实盘表现。


报告并未细化缓解措施概率评估,但通过算法设计理念尝试降低这些风险,强调模块化和工程化框架提高稳定性和迁移能力。[page::3~10]

---

6. 批判性视角与细微差别


  • 模型假设依赖较强:将因子正态分布与标的收益分布一致视为理想因子,假设过于理想,实际市场可能存在非正态或结构性变化风险。

- 搜索空间固定0层算子可能错失优质因子:为提升效率限制搜索空间,称可能错过优质因子,权衡隐含取舍。
  • 样本外表现未充分披露:报告重点展示全样本内回测,缺少更全面的滚动窗口或事件驱动样本外验证,策略稳健性尚待验证。

- 对其他技术指标对比不足:文中虽称优于大多技术指标,但缺少具体对比数据和方法,令优越性论断缺乏更强支撑。
  • 部分图表数据标注不够明确:局部图表缺少具体数值标注,限制精准量化理解。

- 缺乏行业或宏观关联分析:择时因子多为纯技术层面,未考察宏观经济事件或行业特性对策略的影响。

这些细微之处提示读者理性解读报告结论,充分结合其他研究及实证数据。整体报告仍为择时因子挖掘领域提供了先进算法思路和工程框架。[page::3~10]

---

7. 结论性综合



本报告系统展开了基于遗传规划算法的择时因子挖掘研究,紧扣传统择时策略规则堆砌和算法局限痛点,构建了模块化的工程化框架。

通过理论分析和实证数据展示,报告强调:
  • 传统择时策略的局限性源于规则复杂性和迁移力差,多因子模型的工程化思路能实现因子构建、因子合成和优化的有效解耦。

- 遗传规划算法挖掘因子时,需解决数据时间尺度不匹配、搜索空间过大以及种群多样性不足等挑战。
  • 采用基于分钟数据的输入,Beam Search缩减搜索空间,PCA-similarity和Family Competition算法保持种群多样性,是提升因子质量与多样性的有效手段。

- 结果显示机器挖掘出的择时因子呈现近似正态、带方向性的分布特征,与标的收益分布相符。
  • 三品种组合策略回测表现优异,夏普率超过2,年化收益明显高于多数传统技术指标,最大回撤控制合理,显示出优越性和实用前景。


本报告不仅丰富了择时因子构建的理论体系,也为量化投资实践提供了科学工程方法,适应未来动态市场需求。

整体立场积极,推荐持续关注遗传规划与模块化因子构建带来的择时框架革新。该方法兼顾效益与模型稳定性,具备较强推广价值。[page::0~10]

---

附:核心图表markdown格式展示


  • 图1:



  • 图2:



  • 图3:



  • 图4:



  • 图5:



  • 图6:



  • 图7:



  • 图8:



  • 图10:



  • 图11:




---

总结:本报告深刻指出传统择时方法的局限所在,创新性地提出通过算法改进和工程化框架实现因子挖掘质的飞跃,具有高度的技术含量和实际应用价值,是系统性择时策略研发领域的重要参考资料。[page::0~11]

报告