EVALUATION OF DEEP REINFORCEMENT LEARNING ALGORITHMS FOR PORTFOLIO OPTIMISATION
创建于 更新于
摘要
本文使用基于相关几何布朗运动与Bertsimas-Lo市场冲击模型的模拟数据,评估了深度强化学习算法在组合优化中的表现。发现离策略算法DDPG、TD3和SAC因奖励噪声难以正确学习Q函数表现不佳,而近策略算法PPO和A2C利用广义优势估计成功收敛至接近最优策略。PPO的裁剪机制能防止策略偏离最优,结合隐马尔可夫模型可适应参数变化的市场环境。训练样本需求极高,约需200万步训练,反映出现实应用中的样本效率问题[page::0][page::16][page::23]。
速读内容
研究目标与问题框架 [page::0][page::3]
- 基于相关几何布朗运动与Bertsimas-Lo市场冲击模型构建模拟市场环境,包含3只股票与现金账户。
- 投资期间分割为等间隔时段,采用马尔可夫决策过程(MDP)框架,目标最大化对数效用(Kelly准则)。
- 设计奖励为每期财富对数增量,目标为长期时间平均对数财富增长率。
组合优化的最优策略与市场冲击模拟 [page::4][page::6]
- 无市场冲击下,通过求解线性方程得到固定权重的最优组合。
- 加入市场冲击后,策略需考虑交易对价格的暂时及永久影响,初期逐步建仓减少冲击成本。
- 设定市场处于两个隐含状态的切换模型,最优权重随市场状况变化而变化。
深度强化学习算法简介与分类 [page::7][page::15]
- 评估5种主流无模型深度强化学习算法:A2C、PPO(近策略,随机策略)、DDPG、TD3、SAC(离策略,确定性与随机策略)。
- 详细介绍演员-评论家架构、策略梯度、策略损失、价值函数估计及PPO的裁剪目标、广义优势估计(GAE)机制。
- TD3通过双Q学习、延迟更新和平滑策略提高DDPG的稳定性;SAC基于最大熵框架提升探索和鲁棒性。
量化性能评估与关键实验发现 [page::16][page::19]
- PPO在低初始财富(低市场冲击)环境下最优,利用GAE调节偏差方差平衡提高收敛速度。
- PPO裁剪机制有效防止训练后策略偏离最优,权重快速稳定收敛。
- 离策略算法因噪声奖励难以准确学习Q函数,导致性能不佳。实验证实无噪声奖励下DDPG收敛良好。

PPO样本效率与高初始财富下表现 [page::20][page::22]
- PPO需至少200万步训练收敛,等于近8000年每日行情,样本效率限制其应用。
- 高财富导致强烈市场冲击,PPO倾向学习“分数Kelly”策略以降低成本;尝试递进建仓等方法效果有限。
市场状态切换模型下的DRL策略扩展 [page::21][page::22]
- 利用隐马尔可夫模型预测市场状态作为环境上下文,PPO能学会针对牛熊市切换不同固定权重策略。
- 低财富环境下表现良好,收益明显优于单一固定策略。
- 高频冲击下表现不稳定,部分训练收敛至较低增长率的保守策略。


结论 [page::23]
- 离策略深度强化学习受奖励噪声严重影响难以应用于组合优化。
- PPO结合GAE和裁剪机制表现优异,隐马尔可夫模型帮助其在切换市场环境中学习不同策略。
- 样本效率仍是深度强化学习限制实际应用的核心瓶颈。
- 未来研究方向包括利用生成模型增强样本数据,提升算法的实践可行性。
深度阅读
深度强化学习算法在投资组合优化中的评估 —— 详尽分析报告
---
1. 元数据与概览
- 报告标题:《Evaluation of Deep Reinforcement Learning Algorithms for Portfolio Optimisation》(深度强化学习算法在投资组合优化中的评估)
- 作者:Lu Chung I
- 发布单位:新加坡国立大学及亚洲数字金融研究院(AIDF)
- 发布日期:2025年8月7日
- 研究主题:利用模拟数据测试主流深度强化学习(Deep Reinforcement Learning, DRL)算法在投资组合优化任务中的表现,特别考察算法在包含市场冲击的环境下的策略学习效果及样本效率。
核心论点与结论概述:
该报告构建了基于相关几何布朗运动(GBM)及Bertsimas-Lo市场冲击模型的模拟器,作为投资组合优化的实验平台。以Kelly准则(对数效用)作为优化目标,报告推导了无市场冲击的最优策略,作为算法表现的理论上界。实验发现:
- 离策略算法(DDPG/TD3/SAC)难以准确学习Q函数,主要是由于奖励噪声过大,导致表现不佳。
- 在策略算法(PPO/A2C)结合广义优势估计(GAE)能够有效处理噪声,学习到接近最优的策略。
- PPO的裁剪功能对稳定策略防止收敛后偏离最优起关键作用。
- 在更具挑战性的环境(GBM参数含有状态转换)中,PPO结合隐马尔科夫模型(HMM)能适应不同状态学习不同策略。
- 不过所有算法样本效率过低,学习一个接近最优的策略需要数百万步,远超真实金融市场可用数据量,限制了现实中的可用性。
整体来看,DRL在投资组合优化前景广阔,但面临样本效率和环境复杂性的巨大挑战[page::0,1,3,7,16,23]。
---
2. 逐节深度解读
2.1 引言与相关工作(Sections 1-2)
报告介绍投资组合优化问题:三只相关股票及一现金账户构成投资宇宙,目标是最大化对数效用(Kelly准则)。强调金融市场的噪声属性和实际中仅有单次市场轨迹,使快速学习和良好泛化极为重要。相关工作聚焦于DRL在股市中的应用多集中于网络结构和特征工程,且多数忽略市场冲击,等效为单期优化问题,简化假设导致结果泛化不足[page::0,1]。
2.2 模拟器与模型设定(Section 3)
- 3.1 模拟器详述:
- 相关几何布朗运动(GBM)模拟股票价格序列,捕捉价格的漂移、波动率及资产间相关性(参数以ETF数据估计,VUG、VTV、GLD为代表);
- Bertsimas-Lo市场冲击模型(BL)加入交易对价格的暂时及永久影响,使动作对未来收益具时序影响;
- 状态转换模型通过连续时间马尔科夫链模拟GBM参数的不同状态,以反映市场不同阶段的统计特性[page::1~3]。
- 3.2 马尔科夫决策过程(MDP)表示法:投资组合优化被建模为有限时域MDP,状态包含历史价格、当前组合权重和财富,动作为连续的股票权重调整。奖励函数为逐期财富的对数收益,对应Kelly准则。从价值函数与Q函数的贝尔曼方程入手,定义最优策略求解框架[page::3~4]。
2.3 无市场冲击最优策略推导(Section 4.1)
基于Ito引理推导财富对数增长的动态,并最大化期望增速。最终得到线性方程组确定最优权重,与经典均值-方差框架中的效率前沿相呼应(展示于图1,见第6页),通过对波动率约束实现风险偏好调整。最优策略为固定权重组合,随着股价变动进行动态调仓[page::4~6]。
2.4 有市场冲击及状态转换环境(Section 4.2-4.3)
- 不同市场冲击程度影响最优策略的动态调整,冲击越大,成本越高,必须分期逐渐调整组合权重减小交易成本;
- 在状态转换模型中,由于两个市场状态的最优权重差异较大,调仓成本更显著,尤其高财富水平下更容易导致破产。此时需要设计折中策略,结合权重分数调整和平滑调仓达到较好表现[page::6~7]。
2.5 深度强化学习算法(Section 5)
报告详细梳理了五种主流算法:
- A2C(优势演员评论家,on-policy,使用多步TD目标与广义优势估计降低梯度方差);
- PPO(近端策略优化,引入策略裁剪以限制更新幅度,改进A2C稳定性及样本利用率);
- DDPG(深度确定性策略梯度,off-policy,确定性策略,配合目标网络及经验回放缓解训练不稳定);
- TD3(双重延迟DDPG,改进DDPG过估计问题,利用两个Q网络取最小值、延迟更新策略及策略平滑等机制);
- SAC(软演员评论家,引入最大熵目标,提升探索性及策略稳健性,off-policy,结合目标网络与经验回放)。
详细给出了各算法的策略及价值函数表示,优势估计,损失函数定义,以及训练细节如目标网络软更新等,特别强调了各算法在稳定性、样本效率与探索机制的区别与权衡[page::7~16]。
---
3. 图表深度解读
3.1 图1:GBM无市场冲击的效率前沿(第6页)
- 描述:展示在不同对数财富增长率波动率约束条件下的最优组合预期对数增长率(纵轴)和标准差(横轴)的关系,横轴上方对应最优投资组合中股票权重比例。
- 解读:曲线呈现典型的效率前沿形态,收益与风险(波动率)呈正相关。显示了通过凯利策略加权并约束波动率,得到各种风险偏好下的最优组合,验证了理论的合理性。
- 关联文本中提出的基于对数效用函数的最优权重可通过解决线性方程组得到,且可以以该最优权重与现金构成的组合线性扩展延展风险偏好。
- 局限性:GBM模型简化了资产回报的重尾现象,实际市场中波动率和相关性波动会增加。
3.2 表1(第17页):PPO不同GAE参数$\lambda$的表现比较
- 描述:表格对比不同GAE的指数加权参数$\lambda$下,训练好的PPO代理的平均增长率、增长率MAD(平均绝对偏差)、破产次数及基线增长率。
- 解析:
- 单步优势估计$\lambda=0$表现最差,导致策略学习失败,推测为高偏差和奖励噪声导致。
- Monte Carlo优势估计$\lambda=1$表现较好,但最佳区间为0.8-0.9,平衡偏差与方差,获得更稳定策略。
- 最佳$\lambda$下代理的增长率仍略低于基准,推测因优化噪声、奖励噪声及平坦的最优区间造成。
- 支持论点:GAE的选取直接影响学习效果,合理调参是克服金融数据噪声的关键[page::16~17]。
3.3 图2(第18页):PPO裁剪功能对权重稳定性的影响
- 图2(a),(b): PPO带裁剪,股权重稳定收敛,MAD迅速降低。
- 图2(c),(d): PPO不带裁剪,权重波动剧烈,MAD下降缓慢且不稳定。
- 图2(e),(f): A2C算法权重波动大且无明显收敛迹象,MAD无下降趋势。
- 说明裁剪机制防止策略因过大更新偏离最优区域,显著提升训练稳定性。
- 强调PPO裁剪是应对奖励噪声、保持良好局部最优的必要机制[page::17~18]。
3.4 图3(第19页):DDPG学习Q函数的困难及尝试改进
- (a) 地面真实Q函数:形态平滑,符合贝尔曼方程。
- (b) 含奖励噪声时DDPG学习的Q函数:强烈失真,与真值差距大。
- (c) 无噪声奖励时DDPG能学到准确Q函数。
- (d) 使用$\beta$-NLL损失估计概率性Q函数未能缓解噪声影响。
- 结论:奖励噪声显著干扰离策略算法准确估计Q函数,导致策略学习失败,体现了金融投资问题中奖励信号的高不可控性[page::19]。
3.5 表2(第20页):PPO样本效率评估
- 结果显示经过100k步训练PPO性能欠佳,直到达到2m步后策略表现接近稳定。
- 2m步含义:数据量近似8千年每日交易价格,大大超实际金融数据长度,显示当前方法样本效率不足以应对现实限制[page::20]。
3.6 表3(第20页):PPO在高初始财富的表现及市场冲击影响
- 随着初始财富提升,市场冲击影响更显著,平均增长率逐渐降低,破产现象出现,表明高财富场景下市场冲击造成的成本不容忽视。
- PPO策略趋向于低杠杆策略(fractional Kelly),牺牲部分收益以降低冲击成本。
- 尝试引入更大网络、循环网络及上下文RL均未成功突破样本复杂度瓶颈[page::20]。
3.7 “网络结构图”(第21页和第28页)
- 第21页图4描绘了引入HMM输出作为上下文特征与传统特征网融合的整体结构。
- 第28页图7详细了特征提取层、上下文层及共享层结构,网络层数及激活函数说明清晰。
- 设计用以辅助模型识别隐藏状态(市场情绪等),适应非平稳市场环境[page::21,28]。
3.8 图5(第21页):PPO+HMM在低财富、切换状态下的策略学习
- 代理学会针对牛市和熊市分别学习不同的固定权重组合,且权重波动在训练中逐渐收敛至稳定。
- 体现模型能够利用隐状态信息,区分不同市场环境自适应调整策略[page::21]。
3.9 图6(第22页):高财富状态下PPO+HMM多次训练的策略多样性
- 有的模型策略能区分状态形成不同组合,有的趋向近似统一组合。
- 策略表现波动较大,整体收益低于低财富或无状态切换场景,显示市场冲击提高训练难度,加剧奖励噪声。
- 衡量出市场冲击对模型训练稳定性与表现多样性的影响[page::22]。
---
4. 估值分析
本报告无传统财务估值部分,重点在强化学习算法性能的“策略价值”即最终财富的对数期望增速(Kelly准则),作为投资组合策略的“估值指标”。所有算法训练目标即为最大化该对数回报指标,基于风险偏好调整在效率前沿上选择固定权重组合。通过对比实证增长率与解析最优增长率,衡量算法效能及偏差。
---
5. 风险因素评估
报告揭示以下关键风险:
- 奖励噪声高:真实市场模拟中因市场随机性,奖励信号噪声大,离策略算法难以准确学习Q函数,导致性能劣化。
- 样本效率不足:需百万级甚至千万级训练步才能学出较优策略,远远超可用历史数据,限制现实应用。
- 环境非平稳性和隐状态识别困难:状态转换导致最优策略动态改变,训练难度提升,HMM提供局部缓解但并非万能。
- 市场冲击影响呈现非线性,调仓成本较大:高财富情况下调整权重代价大,过快调仓可能导致破产。
- 训练策略存在随机性,相同配置不同训练结果存在显著差异[page::6,16,19,20,22,23]。
缓解策略包括引入广义优势估计降低梯度方差,PPO裁剪机制稳定策略更新,结合HMM辅助上下文感知,但效率仍然难以满足真实市场需求。
---
6. 批判性视角与细微差别
- 对模型假设的局限:模拟基本基于GBM,忽略了股价波动的肥尾、跳跃及极端事件,对实际市场极端风险反映不足。
- 奖励噪声问题对离策略算法影响严重,换句话说,该问题导致DDPG/TD3/SAC这类更重采样和价值函数学习的算法无法正确拟合Q函数。报告中尽管尝试多种技术方案(增大网络,改进损失),均无明显提升,体现目前这些算法应用于金融领域的天花板限制。
- 报告特别强调PPO裁剪机制的重要性,但相关参数的灵敏性和对其他网络结构的依赖尚不清晰,可能影响泛化性能。
- 对HMM的依赖在一定程度上假设市场存在明确且可被判别的隐状态,但隐状态估计误差会带来性能波动,且HMM本身训练离线且固定,未与RL联合训练,存在潜在耦合不足问题。
- 样本效率问题是核心制约因素,但报告仅简单提及生成模型等未来方向,未深入探讨结合模型和现实市场机制的解决方案。
- 训练过程大规模长时间且资源密集,现实中财务监管和市场发生结构变化可能使过度拟合历史数据风险陡增。
- 表格与图表数据多采自仿真环境,现实市场表现仍存不可确定性。
综上,报告提供了严谨系统的算法评估视角,但局限于模拟环境及基础模型,结合实际市场需考虑更多复杂风险和模型适应性[page::19,22,23,28]。
---
7. 结论性综合
本报告系统评估了五种主流深度强化学习算法在投资组合优化任务下的表现,突出贡献包括:
- 理论分析框架完备:通过几何布朗运动与Bertsimas-Lo市场冲击模型搭建模拟环境,解析无冲击最优策略作为基准,确保结果有确定性的参照。
- 在策略算法(PPO/A2C)特别是PPO表现显著优于离策略算法,关键原因是PPO利用GAE减低策略梯度方差和裁剪策略稳定学习过程,成功逼近理论最优增长率。
- 离策略算法因难以克服奖励噪声导致Q函数估计失败,实验明确展示学习错误Q函数的三维可视化及不成功尝试。
- 引入状态转换模型后,通过结合HMM实现策略对不同市场情景的适应学习,展现模型对非平稳环境的潜力,但高财富及冲击强时训练收敛和策略稳定性依然受限。
- 最核心的挑战是样本效率极低,PPO在最佳配置下需要2百万以上训练步才能达到较优状态,相当于现实中数千年金融数据,这明显不现实。
- 建议未来研究应重点提升样本效率,如利用生成模型合成市场数据,结合模型学习和多任务学习等,推动DRL在金融投资领域实际落地。
图表中的数据集中反映了上述结论:图1展示理论性质,表1与图2佐证PPO与GAE功能的效用,图3说明奖励噪声对离策略算法的影响,表2展示当前样本效率瓶颈,表3与图5-6则表现状态切换模型下的策略动态与性能差异。整体来看,报告对于DRL在金融投资领域的应用提供了宝贵的基准分析和经验总结[page::6,16~23].
---
总结
本报告通过严谨理论推导、细致模拟环境设计和多角度算法实验,对深度强化学习在投资组合优化中的应用进行了深刻剖析。其发现强化学习“在策略”算法,特别是PPO结合GAE和裁剪机制在处理噪声与收敛性方面表现优异,而离策略算法因奖励信号干扰难以准确估计价值函数。尽管具备一定适应非平稳市场状态的能力,样本效率低下限制了实际应用。未来方向应聚焦样本利用率和模拟环境的现实丰富性,以期实现理论与实践的有效结合。此报告为金融领域研究者、量化投资开发人员提供了重要的参考框架和方法论指导,是强化学习金融应用研究的里程碑式工作[page::0~23]。