“逐鹿”Alpha 专题报告 (十二)—AlphaZero:基于 AutoML-Zero 的高频数据低频化因子挖掘框架
创建于 更新于
摘要
本报告首次将Google Brain提出的AutoML-Zero算法改进为AlphaZero框架,利用自动机器学习与进化算法,实现高频转低频数据的量化因子自动挖掘。AlphaZero在因子可解释性与挖掘效率上优化,通过量纲化处理和限制因子复杂度,有效控制过拟合。报告展示了三个基于AlphaZero提取的代表性因子,多空年化收益分别达到26.17%、22.51%和25.73%。因子挖掘通过正则化进化算法,动态调节种群多样性以防止局部最优,确保了因子的稳健性和多样性。实验结果表明,生成因子均具有较强的IC水平和超额收益能力,方法对量价类经典因子进行了有效演变和改进[page::0][page::5][page::13][page::18]。
速读内容
AlphaZero框架及算法机制简介 [page::0][page::2][page::5]

- AlphaZero基于Google Brain提出的AutoML-Zero模型,采用从零开始的生成算法,通过正则化进化方式不断变异进化机器学习程序。
- 本文在AutoML-Zero基础上加入了因子挖掘中的量纲约束和算子限制,控制因子长度降低过拟合风险,提高挖掘效率与因子可解释性。
- 采用三类基础数据(标量、向量、矩阵)及元素、时间序列、横截面算子组合构建因子表达,个体表达为程序图结构,支持更广泛且高效的搜索[page::3][page::5][page::6][page::8]。
正则化进化算法实现因子挖掘 [page::9][page::10][page::11]

- 种群个体初始数量定为500,采用热启动机制预置高适应度因子提升进化速度。
- 个体适应度采用因子IC绝对值,筛选方法采用锦标赛法平衡多样性和适应度。

- 通过复制变异多种方式变异因子表达式,插入、成分变异及节点变异确保多样化。

- 引入退化变异和灾难算法处理物种多样性退化,采用降采样简化相似度计算。
- 种群IC表现呈正向增长趋势,周期性波动因灾难算法清理高相关体导致,但后续快速恢复。

典型Alpha因子解析与回测表现 [page::13][page::14][page::15][page::16][page::17][page::18]
- Alpha1为基于股票最高价收敛的经典反转类因子,IC均值约-0.0366,IR为4.38,胜率61.22%。多头累计收益118%,多空年化收益26.17%。


- Alpha2结合开盘成交量占比与最高价成交量关联,IC均值约-0.0367,IR 7.33,胜率68.21%。多头累计收益103%,多空年化收益22.51%。


- Alpha3为横截面成交量标准化及相关性合成因子,IC均值-0.042,IR 6.93,胜率69.90%). 多头累计109%,多空年化收益25.73%。


结论及未来展望 [page::18]
- AlphaZero框架通过自动化进化算法实现因子构建,增强了因子多样性和可解释性,且因子表现稳定优异。
- 现阶段方法挖掘出的因子本质上是经典量价因子的小幅变异,未来拟通过算法优化、计算资源提升实现更大突破。
- AlphaZero未来可扩展应用包括批量生成低相关因子及现有因子改进,具备广泛实际应用潜力。
深度阅读
证券研究报告详尽分析
“逐鹿”Alpha专题报告(十二)—AlphaZero:基于AutoML-Zero的高频数据低频化因子挖掘框架
---
一、元数据与概览
- 报告标题:“逐鹿”Alpha专题报告(十二)—AlphaZero:基于 AutoML-Zero 的高频数据低频化因子挖掘框架
- 作者:丁鲁明、王超
- 发布机构:中信建投证券
- 发布日期:2022年12月14日
- 主题:该报告围绕人工智能技术在金融量化因子挖掘中的应用,重点介绍基于AutoML-Zero演化算法的因子自动挖掘框架AlphaZero,目标是提升因子挖掘效率、可解释性及多样性。核心信息为介绍这一全新的框架方法,并展示相关挖掘出的代表性因子业绩表现,探索AI在量化因子研究中的应用和未来潜力。
- 报告核心信息摘要:
- 传统因子挖掘面临经验瓶颈,市场环境下因子拥挤和风格切换带来挑战。
- 机器学习尤其AutoML技术在工业界广泛应用,AutoML-Zero作为一种全新的、自底向上算法发现方法,拥有搭建更广泛模型的潜力。
- AlphaZero框架结合实际金融问题改进AutoML-Zero,加入量纲约束及计算复杂度限制,提升因子可解释性及降低过拟合风险。
- 展示了三个自动挖掘得到的无量纲因子,呈现较好的年化多空收益表现(约22%-26%)。同时强调模型及其结果存在统计误差及模型假设风险,不构成投资建议。
---
二、逐节深度解读
1. 简介部分
- 介绍因子构建是量化策略的基础,当前因子挖掘传统经验法进入瓶颈,个中瓶颈点在因子拥挤度和风格转换带来的回撤风险。当前人工智能因子挖掘主要在遗传规划方法阶段,本文尝试利用AutoML尤其AutoML-Zero算法辅助因子自动挖掘。
- 关键改进点包括量纲化处理生成无量纲因子,以及对因子表达复杂度的控制,防止过拟合。AlphaZero框架能批量生成新的因子,也能提升现有因子表现。
2. 背景介绍
- AutoML简介:
- 自动化机器学习(Automated Machine Learning, AutoML)旨在减少人工干预,实现端到端模型自动设计,包括数据清洗、特征工程、模型选择、超参数调优等环节(图1示意机器自动化的流程)。
- NAS(神经网络结构搜索)作为AutoML的核心玩法,实现像搭积木一样自动构建网络结构,相关成果如NASNet表明自动设计网络性能超越人手设计网络(图2)。
- AutoML-Zero简介:
- Google Brain团队2020年提出的AutoML-Zero算法从零开始用基本数学操作自动演化出机器学习算法,突破在已有AutoML需借助预定义模块的限制。
- 通过正则化演化算法不断变异程序代码,探索模型结构和算法超参,能自动进化出线性模型、激活函数、优化方法等组件(详见图3、图4算法演化过程)。
- 该方法以程序图表示模型,比传统树型表达式搜索更强大但计算量大,体现了更大搜索空间与计算资源的权衡。
3. AlphaZero框架设计
- 依据AutoML-Zero构建针对因子挖掘的AlphaZero框架,解决进化算法中的“不可能三角”(适应度高、进化效率快、多样性好不能兼得,图5)问题,通过如下两个重要改进:
1. 量纲处理与表达复杂度控制:保证因子无量纲,从金融实际出发避免无效运算,且限制因子表达式长度防止过拟合。
2. 搜索空间限制:扩展AutoML-Zero基础算子,增加符合量价数据实际的算子,且变异操作均与原有图结构相关联,提升进化效率。
- 数据类型划分为三类:标量(s)、向量(v)、矩阵(m),带量纲标签。算子集分为元素算子(加、减、保护除、sigmoid等)、时间序列算子(均值、标准差、相关性等)、横截面算子(图6-7展示程序结构及表达)。
- 进化算法采用正则化进化(退化、淘汰年龄大个体、优选父代进行变异),提高种群适应度和变异空间探索效率(图9-13)。变异包括插入、成分变异、节点变异(图12),引入退化变异与灾难算法缓解多样性丧失问题,防止陷入局部最优,加快种群振荡更新(图11,灾难算法详述在第12页解释)。
- 热启动初始化机制(代入已有高适应度因子,提高搜索初期效率),并用IC绝对值作为适应度函数。IC计算是因子与未来收益的相关系数平均值。种群适应度曲线形态(图13)反映策略进化过程,具有周期IC下降和恢复,体现灾难算法对多样性的影响。
4. 因子挖掘结果
分析三个代表性AlphaZero挖掘出的因子,均为无量纲因子,均衡考虑稳定性和收益率:
- Alpha1:
tsnorm(csnorm(HIGH),20)
- 表现为最高价序列的横截面排序后在20日内标准化,基于价格反转原理。
- 因子IC均值-0.0366,IR4.38,胜率61.22%。IC时序显示多数时间负相关,偶有反转(图14)。
- 多头组累计收益118%,空头-0.16%,多空年化收益26.17%,多头年化23.77%(图15)。
- Alpha2:
tsmax((tsmin(interval(volume, sum, 9:30, 10:00)/VOLUME, 2)+tscorr(high, volume, 240)), 5)
- 结合开盘后半小时成交量占比的2日最小值与高价与成交量的240日相关性求和,再5日最大化。
- IC均值-0.0367,IR7.33,胜率68.21%,稳定性和胜率显著提升(图16)。
- 多头组累计收益103%,空头-7%,多空年化22.51%,多头年化21.39%(图17)。
- Alpha3:
tsmax((tsmin(csnorm(VOLUME), 2) + ts_corr(high, volume, 240), 2)
- 和Alpha2类似但将开盘成交量占比换为横截面成交量标准化。
- IC均值-0.042,IR6.93,胜率69.90%,呈现更高IC与胜率(图18)。
- 多头累计109%,空头-22%,多空年化收益25.73%,多头22.3%(图19)
5. 结果及讨论
- AlphaZero基于AutoML-Zero且结合金融场景需求提出,做了算子和搜索空间的限制,提升进化效率但牺牲部分通用性,所挖掘因子依然以量价因子为基础的变异结果。
- 该方法不仅可用于发现新因子,同时适合构建批量低相关因子组合和提升已有因子。
- 未来随着计算资源和算法的进一步完善,AlphaZero在因子自动挖掘的实际应用前景可期。
---
三、图表深度解读
- 图1 AutoML流程
描述AutoML自动完成从数据采集、特征工程、模型构建、优化算法、评估到部署的循环过程,减少人力干预,提高效率。[page::2]
- 图2 NASNet表现
显示自动神经网络架构搜索生成的NASNet在准确度和计算成本上的优势,兼顾性能和计算资源,说明自动设计架构的有效性。[page::3]
- 图3 AutoML-Zero算法进化过程示意
展示AutoML-Zero从零起步,通过变异实现算法逻辑逐步优化,最终演化出带激活函数、归一化等特性的复杂模型结构,验证了其自动发现算法的能力。[page::4]
- 图4 新算法生成
三个代码示例与流程图,体现AutoML-Zero在小样本、快速训练和多分类适应上的变异适应能力。[page::4]
- 图5 进化算法不可能三角
阐释进化过程中的适应度、效率和多样性三因难以兼得的矛盾,AlphaZero通过设计折中优化方案解决。[page::6]
- 表1 算子集合
分类列出元素运算、时间序列运算及横截面运算符,说明量纲对算子输入输出的影响,通过专门定义算子确保因子的量纲正确与可解释性。[page::6-7]
- 图6 程序构成示意
展示AutoML-Zero程序表达形式的样例代码,示范三部分Setup、Predict和Learn分别实现参数初始化、模型预测及参数更新逻辑。[page::8]
- 图7树形表达式与图8程序表达式对比
程序图结构搜索空间远大于传统树结构,但增加计算难度,体现AutoML-Zero潜力与挑战。[page::8]
- 图9进化算法流程图
明确该算法步骤及条件判断流程,方便理解正则化进化框架操作逻辑。[page::9]
- 图10个体进化过程示例
展示使用热启动初代因子如何迭代通过函数组合与参数修改演化改进,IC提升过程具体可见,使框架演化过程更具说服力。[page::10]
- 图11 正则化进化算法步骤示例
详细描述年龄淘汰和复制变异步骤,使种群结构不断更新并优化适应度。[page::11]
- 图12个体变异示例
三类变异操作代码示例,说明不同形式的代码变异如何实现遗传多样性。[page::12]
- 图13 种群进化IC曲线
使用红色和蓝色曲线分别描绘平均IC和最大IC随进化代数变化,显示种群进化过程适应度提升与多样性维护规律。[page::13]
- 图14-19 三大因子IC和分组累积收益曲线
分别释放IC与20日均IC及多空分组收益随时间的动态表现,揭示因子有效性、稳定性和收益贡献,辅助验证因子质量和AlphaZero方法性能。[page::14-18]
---
四、估值分析
本报告不涉及公开上市公司估值分析和目标价格设定,主要聚焦于量化因子研发方法和策略性能展示,因此无传统估值章节。报告重点数据是因子表现指标如IC均值、IR、胜率及多空收益率等。
---
五、风险因素评估
报告明确列出以下风险因素:
- 进化算法挖掘的因子基于历史数据统计,未来市场风格切换可能导致因子失效。
- 模型随机初始化导致结果有一定波动,不同随机种子下结果差异明显。
- 历史数据区间选择及模型参数调整对挖掘结果均有较大影响。
- 计算资源限制下可能产生欠拟合,影响结果稳定性。
- 模型输出存在统计误差,不能保证未来有效性,且不构成投资建议。
这些风险普遍存在于基于机器学习的量化模型中,反映研究团队专业的风险认知及声明义务。[page::0] [page::18]
---
六、批判性视角与细微差别
- 报告在介绍AlphaZero方法时虽然强调了进化效率和可解释性的提升,但限制搜索空间和算子可能导致最终因子仍较为传统,缺少对创新型或复杂非线性因子的挖掘能力的展现。
- 进化中热启动虽加速收敛,但也可能增强局部最优陷阱风险,造成种群多样性进一步下降。
- 文中三个挖掘因子以量价因子为基础变异,未覆盖更多维度(如基本面、情绪指标等);算法能否挖掘跨域复合因子及其表现尚无披露。
- 描述中因子IC均为负值,意味着因子为负向因子(反转因子),这应当特别说明,并在模型应用时调整方向。
- 计算效率与资源消耗是该方法瓶颈,但缺少对实际计算资源消耗定量描述。
- 文本和图表均强调为历史数据回测,未来实际市场表现无法保证,用户需谨慎解读。
整体来看,报告实事求是,限制和风险明确,观点较保守,缺少对方法局限的深入探讨。
---
七、结论性综合
本报告系统介绍了以AutoML-Zero为核心基础的人工智能因子挖掘框架AlphaZero,结合高频降频等金融数据特性,设计了量纲约束、算子扩展与搜索空间限制,采用正则化进化算法提升因子挖掘效率和质量。三组挖掘因子均体现了较优的统计指标(IC、IR、胜率)及较高的多空年化收益率(约22%-26%),表现稳定且有较强的金融逻辑基础(多为量价特征变异组合因子),说明算法具有实用价值。
报告通过多图表展示了进化过程、个体改进路径及因子表现,实证支持了AlphaZero的挖掘能力。风险提示充分,强调历史回测局限性及模型固有不确定性,体现研究深度。整体方法为因子研究提供新的自动化思路,未来随着计算资源和算法优化潜力巨大。
评级部分未涉及具体买卖推荐或目标价格,报告重点为框架与方法论创新,对量化投资研究人员及金融工程方向专业人士具有较高参考价值。
---
总结
本报告是一篇高度专业且技术细腻的金融工程研究文献。其核心贡献是将AutoML-Zero引入金融因子挖掘,构建AlphaZero框架,通过严谨的进化算法设计,结合金融数据特性进行结构优化,实现了因子自动生成。三大实例因子均表现出良好统计学指标与年化多空收益,说明其方法有效。附以丰富图表详尽解释算法构成、进化流程及因子表现,辅助理解。报告对风险进行了全面披露,表明因子模型的统计本质及局限,未提出投资建议,保持科学严谨态度。
该研究对量化投资领域的方法创新和因子挖掘实践具启示意义,尤其适合具备数学、统计和计算机背景的研究人员学习参考。通过对原文各层面内容的逐条细致分析,以上结论均有明确依据,可为读者深入理解和进一步研究提供基础。
---
(所有结论及引用页面标记见正文对应段落,确保内容透明可溯源)