ALPHA2: DISCOVERING LOGICAL FORMULAIC ALPHAS USING DEEP REINFORCEMENT LEARNING
创建于 更新于
摘要
本报告提出Alpha2框架,利用深度强化学习结合蒙特卡洛树搜索,有效发现符号逻辑一致且多样化的公式化阿尔法因子。通过引入维度一致性约束和多指标综合评价,极大地缩减搜索空间并提升因子性能和多样性,最终显著增强量化交易策略的效益和稳健性。实证表明,Alpha2在真实股市中表现优异,优于传统方法和机器学习基线 [page::0][page::1][page::4][page::5][page::7][page::8]。
速读内容
- 研究背景与目标 [page::0][page::1]
- 公式化阿尔法因因其可解释性和稳定性在量化交易中备受青睐。
- 现有方法如遗传编程和AlphaGen存在局部最优、计算慢、因子相关性高、维度一致性差等问题。
- 方法创新 [page::3][page::4][page::5]
- 将阿尔法发现任务建模为程序生成问题,采用操作符与操作数构建“阿尔法程序”,并转换为计算表达树。
- 利用深度强化学习引导蒙特卡洛树搜索(MCTS),结合加权平均与最大值的价值函数估计,提高稀疏空间搜索效率。
- 引入维度一致性约束,在搜索树扩展阶段即进行剪枝,避免无效组合(如货币维度与成交量直接相加),保证因子逻辑合理。

- 量化因子构建与评价指标 [page::2][page::5]
- 采用信息相关系数(IC)为核心评价指标,同时考虑因子间最大相关性,确保因子多样性。
- 评价函数为:绩效 = (1-最大相关性) × IC,提高低相关性有效因子的优先级。
- 实验数据与基线比较 [page::6][page::7][page::8]
- 使用中国A股市场数据(2009-2023),选用CSI300和CSI500成分股。
- 与MLP、XGBoost、LightGBM、gplearn、AlphaGen方法比较。
- 实验结果亮点 [page::7][page::8]
- Alpha2生成的阿尔法平均IC达到0.0407,远超gplearn和AlphaGen,相关性最低,因子多样性最佳。
| 方法 | IC | 相关性 |
|-------------|------------------|------------------|
| gplearn | 0.0164±0.0167 / 0.0257±0.0153 | 0.7029±0.1824 / 0.3762±0.6755 |
| Alpha2 (本报告) | 0.0407±0.0219 | 0.1376±0.3660 |
- 在CSI300和CSI500测试集中,Alpha2表现最佳:
| 方法 | CSI300 IC | CSI300 Rank IC | CSI500 IC | CSI500 Rank IC |
|-----------|-----------|----------------|-----------|----------------|
| MLP | 0.0123 | 0.0178 | 0.0158 | 0.0211 |
| XGBoost | 0.0192 | 0.0241 | 0.0173 | 0.0217 |
| LightGBM | 0.0158 | 0.0235 | 0.0112 | 0.0212 |
| gplearn | 0.0445 | 0.0673 | 0.0557 | 0.0665 |
| AlphaGen | 0.0500 | 0.0540 | 0.0544 | 0.0722 |
| Alpha2 | 0.0576 | 0.0681 | 0.0612 | 0.0731 |

- 回测结果显示Alpha2策略取得最高累计收益,显著领先其他方法。
- 交易策略构建流程 [page::6]
- Alpha2生成阿尔法因子集合,利用XGBoost组合模型拟合收益信号,输出交易策略。

深度阅读
金融研究报告详尽分析:
《ALPHA2:使用深度强化学习发现逻辑性公式阿尔法因子》
---
1. 元数据与概览 (引言与报告概览)
报告标题:ALPHA2: DISCOVERING LOGICAL FORMULAIC ALPHAS USING DEEP REINFORCEMENT LEARNING
作者:Feng Xu, Yan Yin, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Zongzhang Zhang
机构:南京大学国家重点实验室、人工智能学院,香港大学
发布日期:未标明具体日期,但参考文献最晚为2023年,推断为2023年或2024年初
研究主题:使用深度强化学习(DRL)在量化交易中自动发现公式化的阿尔法因子(alpha),以提供更为有效且逻辑合理的交易信号。
核心论点:
本报告聚焦于发现“公式化Alpha”——即基于明确数学表达式的交易信号,这类Alpha因子因简单、透明、有利于分析及用作组合构建而被业界广泛青睐。相比存在过拟合风险且难以解释的黑盒模型,公式化Alpha更稳健。此前主流自动生成公式Alpha的方法多基于遗传编程(GP),但GP存在初始种群敏感、易陷入局部最优及计算效率低下等问题。虽然已有DRL尝试,但未充分考虑Alpha之间的相关性和逻辑有效性,制约了其实际应用效果。
本研究提出Alpha2框架:将Alpha发现过程视为程序构建,由DRL指导的蒙特卡洛树搜索(MCTS)算法遍历搜索空间,采用预计算的维度分析实现搜索空间剪枝,并且评估标准同时鼓励模型性能和Alpha多样性,以实现高效且逻辑严密的Alpha因子挖掘。实证结果表明,Alpha2显著提升了交易策略的表现。代码已开源。
---
2. 逐节深度解读
2.1 引言部分
- 关键信息:
Alpha在量化策略中负责将市场原始数据(如开盘价、收盘价等)转化为可交易信号,核心在于发现健壮且高效的Alpha因子。公式化Alpha指由简单可解释的数学运算组成,具有透明性和持久性优势;黑盒Alpha则基于深度学习等复杂模型,虽然表达能力强,但普遍更容易过拟合且缺乏稳定性。本文重点针对公式化Alpha的自动发现。
- 逻辑支撑:公式化Alpha因其数学可解释性和易分析特性,在市场波动中更具稳健性,因而是量化交易中的重要研究对象[page::0]。
2.2 相关工作与问题点
- 重要论点:
自动生成公式Alpha主要依赖遗传编程(GP)或强化学习(RL)方法。GP方法基于表达式群体的演化,但受限于初始解和计算资源,导致搜索效率低且易陷入局部最优。AlphaGen等强化学习方法提升了表现但依旧存在两大不足:无法发现更深层、更基础的操作符构成的Alpha,以及仅依赖Alpha的表现作为评价,导致结果相关度高且解释性不足。
- 关键评价标准:
有效Alpha应具备多样性(降低相关性以增强策略稳健性)和逻辑严谨性(如维度一致性,避免无意义的操作如“价格+成交量”)[page::1]。
- 搜索空间难题:
40个二元操作符和20个操作数,最长15个操作符的Alpha搜索空间高达$10^{63}$,使得暴力搜索不可行。蒙特卡洛树搜索(MCTS)结合强化学习已在复杂游戏及程序搜索中表现优异,报告因此借鉴其思想[page::1]。
- 核心贡献:
重新定义Alpha发现为程序生成任务,引入RL指导的MCTS以逐条组装程序,结合预先计算的维度分析进行剪枝,从而显著压缩搜索空间,确保逻辑的一致性与多样性[page::1]。
2.3 方法论
2.3.1 Alpha程序构建(4.1节)
- Alpha由指令序列构成,每条指令是4元组(operator,operand1,operand2,operand3)。操作符分单元、双元、三元及指示符类,操作数包含标量、矩阵(如开收盘价)、寄存器(存储中间结果)及占位符。
- 通过程序转化为表达式树,计算Alpha结果。如示例中表达(close−open)/(high−low),每步指令对应表达树一种运算节点(见图1)[page::3]。
2.3.2 MDP框架(4.1.3节)
- 将Alpha程序生成任务建模成马尔可夫决策过程(MDP):
- 状态空间:当前Alpha程序表示。
- 动作空间:所有可选指令。
- 转移函数:确定性,由当前状态执行动作生成下一状态。
- 奖励函数:新程序性能提升值,采用信息相关系数(IC)等指标计算。
- 折扣因子控制程序长度。
- 初始状态为空程序。
这种设计便于用强化学习算法搜索最优程序[page::4]。
2.3.3 强化学习算法(4.2节)
- Alpha2沿用AlphaDev的强化学习与MCTS算法,DRL神经网络输入当前状态向量,输出动作分布和状态价值。MCTS根据此信息引导搜索以发掘优质Alpha。网络输出的“prior概率”指示动作倾向,“value”预估该动作后可能获得的总回报。
- 报告集中介绍对传统AlphaGen框架的改进,特别是优化搜索稳定性、性能指标以及考虑多样性和维度合理性的功效[page::4]。
2.3.4 发现稳健Alpha(4.3.1节)
- 传统MCTS采用均值作为价值估计,但因Alpha信号稀疏初期表现差。报告提出用加权平均和最大值的加权组合计算价值,其中β控制两者权重。此设计平衡了低估和高估风险,有助发掘参数敏感度低的稳健Alpha[page::4]。
2.3.5 发现多样Alpha(4.3.2节)
- 为防止发现高度相关的Alpha,报告引入惩罚高相关Alpha的机制。衡量标准为新Alpha与已发现Alpha集合间最大Pearson相关系数。评价函数设计为:
\[
\mathrm{Perf}(\zeta{t}) = (1 - \mathrm{MaxCorr}(zt, G)) \times \mathrm{IC}(z_t, \mu)
\]
该函数鼓励找到与现有Alpha相关性低,但性能指标高的表达式,从而促进多样性提升策略稳健性[page::5]。
2.3.6 维度一致性检查(4.3.3节)
- 交易信号的构建不能违反物理或经济意义上的基本规则,比如不能将价格和成交量直接加和。报告指出先前方法未能实现搜索时的维度一致性约束,仅能在找到完整表达式后做后验检验。
- Alpha2创新点在于针对表达式的中间状态,也就是计算树节点,实时记录和检查维度,提前剪枝不合规则的分支,显著压缩搜索空间,提升逻辑性和有效性。示例图(图2)清晰展示了该机制:允许价格维度数值加法,拒绝价格与体积维度混合[page::5]。
2.4 交易策略生成流程(4.4节)
- Alpha2专注于Alpha生成,不直接产出最终交易策略。生成Alpha后,使用组合模型(如XGBoost)对多个Alpha信号加权,形成交易信号。
- 整个流程图示在图3中:MCTS和DRL引导Alpha构建,产生多样有效的Alpha程序,语义转换成交易信号,输入组合模型,最终输出策略[page::6]。
---
3. 图表深度解读
3.1 图1 – 表达式树示例
图1展示了Alpha程序( close−open )/( high−low )对应的表达式树。
- 程序由三条指令组成:① Sub(close, open)存入Reg0,② Sub(high, low)存入Reg1,③ Div(Reg0, Reg1)。
- 颜色对应表2中的指令区分,清楚体现程序如何被逐步计算。
意义:该图具体说明了Alpha的逻辑结构和解释路径,支持程序化Alpha表达的思想基础[page::3]。
3.2 图2 – 维度剪枝示例的搜索树与表达式树
图2左半部分为蒙特卡洛树搜索的部分节点扩展,显示正在扩展的节点“close−open”及其两个子节点“close−open + high”和“close−open + volume”。
图右半部分为对应两个扩展动作对应的表达式树。对“close−open + high”(绿色区域)进行维度校验时通过,因两者同属“currency”维度;“close−open + volume”(红色区域)校验失败,因维度不匹配。
意义:该示意展示了维度一致性检查在搜索树扩展时的实现方式,有效剪枝不合逻辑表达,减少无效计算,提高搜索效率和表达式的合理性[page::5]。

3.3 图3 – 生成交易策略的流程图
图3以流程图形象展现了Alpha2整个算法的工作流程:
- 左侧的MCTS实现Alpha程序的搜索,结合RL策略、价值估计、性能度量及维度检查;
- 中间的Alpha表达式被输出;
- 右上角的组合模型以Alpha信号为输入,生成综合交易信号;
- 右下角是最终的股票或期货市场的交易策略执行。
意义:清晰显示了Alpha发现和实际交易策略构建的分工,强调该研究专攻Alpha生成,接入用户可根据需求定制后续策略模型[page::6]。

3.4 表1 – 操作符和操作数示例
表1分两部分展示本方法所用操作符和操作数的类别和示例:
- 操作符:包括一元、二元、三元和指示符(如Start、End);
- 操作数:标量(0, 0.1, 1等)、矩阵(价格类型变量如open、close)、寄存器及占位符。
此分类支持程序化构建Alpha和严格执行操作符对操作数的统一要求[page::3]。
3.5 表4 – 生成的Alpha的IC及相关性统计(CSI300)
| 方法 | IC | Correlation |
| -------------- | ------------------------- | ------------------------- |
| gplearn AlphaGen | 0.0164±0.0167 0.0257±0.0153 | 0.7029±0.1824 0.3762±0.6755 |
| Alpha2 (本研究) | 0.0407±0.0219 | 0.1376±0.3660 |
- Alpha2生成的Alpha显著优于gplearn和AlphaGen,在IC表现上约提升至两倍,且相关性远低于其它方法,显示出更强的多样性和潜力构建稳健策略[page::7]。
3.6 表5 – 测试集上各方法性能(CSI300与CSI500)
| 方法 | CSI300 IC | CSI300 Rank IC | CSI500 IC | CSI500 Rank IC |
| ---------- | ------------- | -------------- | ------------- | -------------- |
| MLP | 0.0123±0.0006 | 0.0178±0.0017 | 0.0158±0.0014 | 0.0211±0.0007 |
| XGBoost | 0.0192±0.0021 | 0.0241±0.0027 | 0.0173±0.0017 | 0.0217±0.0022 |
| LightGBM | 0.0158±0.0012 | 0.0235±0.0030 | 0.0112±0.0012 | 0.0212±0.0020 |
| gplearn | 0.0445±0.0044 | 0.0673±0.0058 | 0.0557±0.0117 | 0.0665±0.0154 |
| AlphaGen | 0.0500±0.0021 | 0.0540±0.0035 | 0.0544±0.0011 | 0.0722±0.0017 |
| Alpha2 (本报告) | 0.0576±0.0022 | 0.0681±0.0041 | 0.0612±0.0051 | 0.0731±0.0093 |
- Alpha2的IC及Rank IC在两个指数上均领先所有对比基线,表明生成的Alpha组合信号具有更精准的未来收益预测能力[page::8]。
3.7 图4 – CSI300市场回测累计收益曲线
- 图示Alpha2(蓝色曲线)展示出截然优于其他方法(AlphaGen、gplearn、MLP、XGBoost、LightGBM)累计收益表现,最终收益超过60%。
- 尤其在多次行情回调期,Alpha2仍保持相对稳健,表现出更好的策略抗风险能力。
- 参照基准指数CSI300的收益表现(粉色虚线)明显下滑,与Alpha2形成鲜明对比。
这一图表有力反映了算法在真实市场环境中的应用潜力和竞争优势[page::8]。

---
4. 估值分析 (暂无具体估值方法)
此报告无典型财务估值分析部分,因其核心聚焦于Alpha因子生成算法本身及其实验验证,非上市公司估值或行业分析报告。其核心“估值”可类比为在多指标(IC、Rank IC、多样性、维度一致性)统筹下评价Alpha质量。
---
5. 风险因素评估
报告隐含风险主要包括:
- 搜索空间超大与局部最优风险:尽管通过维度预剪枝和DRL指导MCTS大幅压缩空间,搜索依旧面对指数级复杂性,存在陷入局部优解的可能。报告通过引入β平衡的价值估计缓解这一点。
- 数据特性风险:金融市场数据噪声极大,真人生成的Alpha难以完全适用,自动生成模型可能捕捉偶发性模式。
- 维度定义简化:报告仅展示了“货币”与“成交量单位”两种维度,对更复杂多维特征的维度定义尚未拓展,某些复杂交易变量可能存在遗漏维度规则,影响筛选效果。
- 实际落地风险:Alpha2只生成Alpha,本身不包含组合策略优化、交易成本与滑点调整,实际应用需谨慎设计组合模型。
报告未显著深入讨论风险缓解策略,部分潜在风险需后续研究细化[page::1][page::5]。
---
6. 批判性视角与细微差别
- 报告提出的方法与传统方法相比,提升明显,但仍依赖强化学习和MCTS的计算消耗较大,实验规模和算力需求未全面展开,实际工业应用门槛或较高。
- 多样性考虑仅基于Pearson相关系数,未来可探究更深层交叉验证或因果关联评估。
- 维度检测机制虽优于先前方法,但对更复杂非线性组合形式的维度一致性验证尚不明确,可能忽略某些细微逻辑错误。
- 强化学习的随机性和多次训练的稳定性未详述,不同随机种子训练成果的稳定性和鲁棒性值得关注。
- 报告强调逻辑一致性,但缺少对“过拟合风险”对冲机制的实证分析,实际表现是否受限于过拟合尚不明确。
---
7. 结论性综合
本报告系统介绍了Alpha2,一种运用深度强化学习与蒙特卡洛树搜索进行公式Alpha自动生成的创新框架。通过将Alpha生成视作程序构建任务,报告提出了多项创新点:
- 将Alpha编码为可扩展的程序指令序列,支持表达式树化计算。
- 利用MDP架构及经过改进的强化学习引擎(结合max与mean加权价值估计)进行算法优化。
- 引入新颖的维度一致性预剪枝机制,在搜索过程根本上剔除逻辑不合的表达,显著缩小搜索空间。
- 设计评价指标同时综合Alpha性能和相关性,促进生成多样且高效的Alpha集。
实证结果显示,Alpha2产出的Alpha不仅信息相关系数(IC)和秩相关系数(Rank IC)显著优于传统方法,在测试集及真实股票市场回测中均获取更高累积收益,且因Alpha间相关性显著较低,具备更强稳健性。图表和表格充分支撑了以上结论,体现了其理论与工程上的双重创新价值。
整体上,Alpha2提供了一条结合机器学习、符号回归与金融领域专业知识的有效路径,推动了量化投资中公式化Alpha自动发现的进步。其具有良好的通用性与实际应用潜力,但仍需要进一步工作来稳健化算法表现、丰富维度检测体系,并延展至交易成本和更复杂资产类别,以支持广泛商业化应用[page::0-8]。
---
注: 本分析严格基于报告内容进行,对所有重要论点、数据、图表以及方法细节均有详尽解读,引用内容均标明对应页码。