`

“逐鹿”Alpha 专题报告 (十二)—AlphaZero:基于 AutoML-Zero 的高频数据低频化因子挖掘框架

创建于 更新于

摘要

本报告介绍了将 Google Brain 提出的 AutoML-Zero 算法改进应用于量化因子挖掘领域的AlphaZero框架,通过量纲化处理、算子结构优化及正则化进化算法实现高效因子进化。报告展示了三个挖掘出的高频数据低频化因子,均表现出较高的IC、胜率和年化多空收益率,验证了AlphaZero在因子挖掘上的有效性及潜力,具备广泛应用前景 [page::0][page::5][page::13][page::14][page::18]。

速读内容


AlphaZero框架简介及背景介绍 [page::0][page::2][page::5]

  • AlphaZero基于AutoML-Zero进行改进,着重优化因子挖掘效率、可解释性与多样性。

- 对数据进行量纲化处理,生成无量纲因子,限制合成因子长度以控制复杂度。
  • 采用图结构程序表达式,扩展搜索空间,同时通过相关联变异提升进化效率。

- 进化算法采用正则化进化,保证物种多样性和适应度的平衡。

基础数据类型与算子设计 [page::6][page::7]


| 算子类别 | 表达例子 | 说明及量纲 |
|---------|----------------------------------|----------------------------------|
| 元素运算符 | add(m1,m2), subtract(m1,m2), protecteddiv(m,v) | 需输入相同量纲,输出量纲不变 |
| 时间序列运算符 | tsmean(m,s), tsstd(m,s), tscorr(m1,m2,s) | 输出量纲通常不变或无量纲 |
| 横截面运算符 | cs
norm(m) | 输出无量纲 |
  • 数据包括标量、向量、矩阵,涉及多频率高频数据降频至日频处理。

- 程序结构包括Setup、Predict、Learn三部分,支持高效表达与进化。

AlphaZero进化算法流程与创新点 [page::9][page::10][page::11][page::12]


  • 种群初始化量为500,混合随机和热启动已有高适应度个体。

- 个体适应度以因子IC绝对值计算;采用锦标赛法筛选保证多样性。
  • 进化采用正则化进化,淘汰年龄最大个体,复制并变异高适应度个体。

- 变异方式包括插入、成分变异、节点变异。
  • 引入退化变异和灾难算法,有效缓解种群多样性降低带来的局部最优陷阱。

- 灾难算法通过相关性采样剔除相似度过高的个体,保持种群多样性。
  • 种群IC随进化轮次稳步提升,体现算法有效性。



挖掘因子一览及性能评价 [page::13][page::14][page::15][page::16][page::17][page::18]

  • 因子一(Alpha1):tsnorm(csnorm(HIGH),20),是基于最高价的20日横截面排序标准化,IC均值-0.0366,IR4.38,因子胜率61.22%,多空年化收益率26.17%。


  • 因子二(Alpha2):综合开盘后半小时成交量占比两日最小值与日内高成交量相关性,IC均值-0.0367,IR7.33,因子胜率68.21%,多空年化收益率22.51%。


  • 因子三(Alpha3):横截面标准化成交量和相关性相同结构替换因子二中的开盘量,IC均值-0.042,IR6.93,因子胜率69.90%,多空年化收益率25.73%。




结论与未来展望 [page::18]

  • AlphaZero为大量半自动低频化因子挖掘提供工具,算法结构设计保证了挖掘效率与因子质量。

- 挖掘因子均基于经典量价因子变异优化,表现稳健且具备广泛适用空间。
  • 随硬件性能提升及算法改进,AlphaZero应用范围将持续扩大,尤其在大规模多因子系统构建领域。


深度阅读

证券研究报告分析——“逐鹿”Alpha专题报告(十二)—AlphaZero:基于AutoML-Zero的高频数据低频化因子挖掘框架



---

一、元数据与概览


  • 报告标题:《“逐鹿”Alpha 专题报告 (十二)—AlphaZero:基于 AutoML-Zero 的高频数据低频化因子挖掘框架》

- 发布机构:中信建投证券股份有限公司金融工程团队
  • 发布日期:2022年12月14日

- 作者:丁鲁明、王超
  • 主题:基于进化算法和AutoML-Zero模型,在因子挖掘领域开发的AlphaZero挖掘框架,主要面向金融量化因子自动挖掘与优化

- 核心论点
- 传统因子挖掘方法(经验和遗传编程)存在效率和多样性限制。
- 引入Google Brain的AutoML-Zero模型,结合实际金融高频数据特点,改进为AlphaZero框架以提高因子挖掘效率和可解释性。
- AlphaZero通过量纲规范和构造程序表达式图结构,更高效且可解释地进行因子合成,进化生成了多个表现优异的因子。
- 挖掘出的因子具有较高的历史年化多空收益,大致在22%-26%区间。
  • 主要结论:AlphaZero框架证明了基于AutoML-Zero的自动因子挖掘在金融领域的有效性与潜力,为未来量化策略提供了新的工具和思路,但仍存在随机性和历史数据拟合风险,需谨慎应用。


---

二、深入章节解读



2.1 简介与背景


  • 报告开篇阐述量化研究中因子构建的核心地位,传统方法已经出现瓶颈,因子拥挤和风格切换问题突出。

- 人工智能在因子挖掘领域主要采用遗传规划方法,未能完全解决效率和模型创新问题。
  • 引入AutoML(自动机器学习)发展,尤其是AutoML-Zero能从极其基础的算子开始进化自动学习算法,提供了新的因子挖掘思路。

- AlphaZero的目标是结合AutoML-Zero和金融特性,实现无量纲、简洁且可解释的因子自动合成,克服传统进化算法难以平衡适应度、效率和多样性的不可能三角问题[page::0-3,5].

2.2 AutoML及AutoML-Zero介绍


  • AutoML涵盖自动数据清洗、特征工程、模型选择、超参数优化和神经网络架构搜索(NAS)等,显著减少人工操作,提高模型表现。

- NASNet在精度和运算效率上的优异表现证明了自动化建模的潜力(图2展示不同网络模型的准确率与运算量关系)[page::2-3].
  • AutoML-Zero进一步创新,从原子数学运算搭建学习算法,利用正则化进化算法实现训练代码自动进化,演进出完整MLP神经网络模型,包括学习率衰减、Dropout等机制(图3和图4说明算法演进过程及生成的新算法特征)[page::3-4].


2.3 AlphaZero框架设计


  • AlphaZero继承AutoML-Zero的核心思想,但针对金融数据特点进行了重要改进:

- 对所有数据进行量纲化,限制因子为无量纲,更有利于解释和避免非法操作。
- 限制造成计算复杂的合成因子长度,防止过拟合。
- 加强搜索空间关联性,变异仅允许与原有代码有关联,避免盲目随机变异,提高进化效率和收敛性。
- 引入更多金融实用算子(非仅基础四则运算),更贴合量价数据实际分析需求。
  • 具体措施使得进化过程效率明显提升,同时得到的因子结构更简洁、解释性更强(图5示意进化算法“不可能三角”)[page::5-6].


2.4 程序表达式结构与算子体系


  • 数据类型划分为标量、向量、矩阵,分别赋予不同量纲。

- 算子分为元素运算符、时间序列运算符和横截面运算符,例如加减法、标准差、偏度、相关系数、排序等,均考虑量纲匹配规则。
  • 因子最终表现为程序形式,由Setup、Predict、Learn三部分组成,结构更像图而非传统树型表达式,这种表示拥有更大的搜索空间和表达能力(图6-8示意程序构成、树形和图形表达式比较)[page::6-8].


2.5 进化算法设计与优化


  • 采用正则化进化算法(衰老进化),通过淘汰年龄最大个体,保持种群多样性与适应度持续提升(图9-11展示进化流程和正则化进化过程)。

- 热启动初始化引入历史表现优良因子,提升搜索初期效率(示例图10通过多轮变异显著提升因子IC,从0.057提升至0.064)。
  • 个体适应度以因子IC绝对值度量,筛选采用锦标赛法平衡多样性和进化速度。

- 变异方式包括插入、成分和节点变异,避免交叉变异保持算法简单且专注探测变异对因子表现的微小影响(图12示例不同变异方式)。
  • 引入退化变异和灾难算法解决种群过于单一导致的局部最优问题,采用降采样加速高复杂度相关性计算,实现周期性清理近似基因个体,促进多样性(详见第3.2.4节)[page::9-13].


2.6 因子挖掘结果及性能


  • 种群平均IC随迭代轮数持续增大,但阶段性下降对应灾难算法清理过程,说明算法有效保持多样性,避免陷入局部最优(图13)[page::13].

- 提炼出三个典型因子Alpha1、Alpha2、Alpha3:

Alpha1
- 表达式:tsnorm(csnorm(HIGH),20),即最高价的横截面排序20日时间序列标准化,表现为经典反转因子变种。
- 性能指标:IC均值-0.0366,IR 4.38,胜率61.22%。大部分时间负向IC(说明策略多采取价格反转方向),年化多空收益26.17%(图14-15)[page::14-15].

Alpha2
- 表达式:tsmax((tsmin(interval(volume, sum, 9:30, 10:00)/VOLUME, 2)+tscorr(high, volume, 240)), 5)
- 结合开盘后半小时成交量占比及最高价与成交量的相关性,动态捕捉开盘活跃度与成交价行为。
- 性能更优:IC均值-0.0367,IR 7.33,胜率68.21%,年化多空收益22.51%(图16-17)[page::15-16].

Alpha3
- 表达式:ts
max((tsmin(csnorm(VOLUME), 2) + ts_corr(high, volume, 240), 2)
- 类似Alpha2,但将开盘成交量占比替换为横截面标准化成交量,表现更优。
- 性能指标:IC均值-0.042,IR 6.93,胜率约69.9%,年化多空收益25.73%(图18-19)[page::17-18].
  • 三个因子均表现出较强的统计显著性和稳健性,且多空策略均实现正收益,验证了AlphaZero自动挖掘的有效性。


---

三、图表深度解读


  • 图1 (AutoML流程图):展示了AutoML从人类专家定义任务到模型部署的闭环,强调自动化特征工程、模型选择和优化环节,减少人工干预,提升效率[page::2].

- 图2 (NASNet性能对比):NASNet在不同计算资源和参数量时表现优于传统深度网络(如VGG-16、ResNet),确认神经架构搜索的有效性[page::3].
  • 图3-4:AutoML-Zero算法演化过程及新生成算法细节,体现从简单线性模型逐步演化到复杂激活函数和优化算法的能力[page::4].

- 图5 (进化算法不可能三角):适应度、进化效率和多样性间的权衡问题,AlphaZero设计中针对该三角采取减法限制和关联进化优化。
  • 图6-8 (程序结构对比):程序表达式相比树结构更具灵活性和表达容量,尽管带来搜索困难,但潜力更大。

- 图9-12 (进化过程及变异示意):详细展示进化步骤、正则化淘汰策略、不同变异类型实例,体现算法如何实现逐代优化。
  • 图13 (种群IC演化):种群平均IC稳步攀升,周期性下滑反映多样性维护机制生效,说明模型进化过程是有效的。

- 图14-19 (三因子IC与分组收益率)
- 各因子IC时间序列反映出不同市场周期的因子效用波动。
- 分组收益率曲线展示多空头部收益差异巨大,因子逻辑有效,年化收益均超过20%,超出多数传统因子表现。
- 不同因子之间细微基因差异增强了因子的性能和稳定性。

---

四、估值分析



本报告并无涉及传统的企业估值分析,因其核心是金融因子自动挖掘方法和模型构建,主要面向量化投资因子的研发,未有股票价格或市值目标价评级。

---

五、风险因素评估


  • 历史统计性质风险:因子基于历史数据统计属性,面临未来风格切换导致失效的风险。

- 模型随机性风险:进化算法含随机性,初始化随机数种子对结果影响较大,单次运行效果不稳定。
  • 数据区间选择风险:历史数据区间的不同取样可能导致因子表现差异。

- 计算资源风险:因计算需求大,资源利用不足会导致欠拟合,影响结果有效性。
  • 统计误差风险:模型统计分析存在误差,不能保证未来有效性,且不构成投资建议[page::0].


报告未明确提供风险缓解策略,但通过热启动初始化、退化变异及灾难算法等机制部分缓解多样性和过拟合风险。

---

六、批判性视角与细节


  • 报告积极推广基于AutoML-Zero的因子自动挖掘技术,强调其创新和有效性,但:

- 较多依赖历史数据回测,实际操作中因市场环境变化、交易成本未充分考虑,有一定局限性。
- 进化算法参数(种群大小、变异率等)选择对结果影响明显,未详列参数敏感性分析。
- 因子多空IC均为负值,实际策略采取反转操作,有待结合资产定价理论或套利逻辑进行更全面解释。
- 相关性和多样性平衡虽采用多算法解决,但种群搜索空间依然巨大,存在部分探索不足和局部最优风险。
  • 报告结构清晰,图表丰富,但对模型的具体代码实现、算子详细列表及计算量估算介绍略显不足。


---

七、结论性综合



本报告系统性介绍了AlphaZero框架,该框架创新性地将谷歌AutoML-Zero模型应用于金融因子挖掘。AlphaZero通过算法结构优化(量纲化、删除无关联随机变异、引入金融常用算子)和进化算法改进(正则化进化、退化变异以及灾难算法)有效平衡了因子的适应度、进化效率和多样性,克服传统遗传规划的瓶颈。

三个自动挖掘的代表性Alpha因子均表现出强劲的历史IC和年化多空收益(22%-26%区间),分组收益率曲线证实其有效区分性能,展示了框架在复杂金融市场环境下的实用价值。尤其因子二、因子三表现更优,胜率更高,突显了基于量价信息多角度创新的潜力。

图表数据清晰展现了进化过程种群适应度上升曲线、多因子表现动态和演化路径,支持文本论点。AlphaZero框架提供了自动挖掘金融因子的一种全新技术路径,兼具创新性和实践价值。

但报告同时指出该框架仍存在历史拟合风险、模型随机性影响和计算资源需求高的限制,未来需结合更多实盘验证、多因子组合优化及超参数敏感性研究。同时,因子负IC值多须结合反转策略使用,策略逻辑需进一步探讨。

综上,AlphaZero框架是AutoML与进化算法在量化因子挖掘领域的领先尝试,表明自动化算法设计与金融量化深度融合具备巨大前景。其系统化思路和成果,具备为量化策略研发赋能的潜力,值得持续关注与拓展[page::0-19].

---

附录


  • 主要参考文献

1. Taking Human out of Learning Applications: A Survey on Automated Machine Learning, 2018
2. Learning Transferable Architectures for Scalable Image Recognition, CVPR 2018
3. AutoML-Zero: Evolving Machine Learning Algorithms From Scratch, 2020
4. Regularized Evolution for Image Classifier Architecture Search, AAAI 2019[page::19]
  • 作者简介

- 丁鲁明:中信建投证券金融工程团队执行总经理,资深金融数学与量化分析专家。
- 王超:南京大学粒子物理博士,丰富量化研究与投资经验[page::20].
  • 免责声明和评级说明详见报告末尾。


---

关键词释义及金融术语解释


  • AutoML(自动机器学习):使机器学习流程自动化,减少人工调参和特征工程。

- AutoML-Zero:从最原始运算符出发,进化出完整的机器学习算法。
  • 因子IC(Information Coefficient):因子值与未来收益的相关系数,衡量因子预测能力。

- IR(Information Ratio):信息比率,代表因子收益与回撤比。
  • 正则化进化算法(Regularized Evolution):一种通过淘汰“年龄”最大的个体来维持多样性的进化算法。

- 量纲化:对不同单位或量纲的数据做统一处理,避免量纲混淆带来的误差。
  • Program表达式:以程序代码形式定义因子,表示比树结构更高级的计算图。


---

报告