Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE
创建于 更新于
摘要
本论文针对风险资产和无风险资产之间的最优资产配置问题,提出在马尔可夫决策过程框架下,结合凯利准则和基于深度确定性策略梯度(DDPG)与时间序列密集编码器(TiDE)的强化学习方法,构造动态、连续的投资策略。实验基于1927-2019年的宏观经济与市场数据,结果显示DDPG-TiDE策略优于离散动作Q学习与买入持有策略,尤其在风险调整收益率表现更优,且合理应用杠杆可进一步提升收益。该方法有效捕获时序依赖,提升策略适应性和盈利能力,为资产配置提供了新的量化思路[page::0][page::1][page::2][page::5][page::6][page::7][page::8]。
速读内容
方法创新:将TiDE编码器整合入DDPG框架强化资产配置策略[page::0][page::2][page::5]
- 本研究将时间序列密集编码器(TiDE)与深度确定性策略梯度(DDPG)结合,提升对多变量时间序列金融指标的捕捉能力,实现连续的投资比例决策。
- 相较于传统Q-learning的离散动作和状态空间,DDPG-TiDE可处理高维连续输入与动作,提升策略的灵活性和计算效率。
研究设计:基于1927-2019年长周期宏观及市场数据,设置训练与测试阶段[page::5][page::6]
- 数据集包括市场收益率、无风险利率及11项宏观金融预测指标,涵盖1927-2019年,训练期1927-1957,验证1958-1988,测试1989-2019。
- 实验包括三种策略:Q-learning(离散动作,支持无杠杆及50%杠杆),DDPG-TiDE(连续动作,支持无杠杆及50%杠杆),及买入持有基准。
策略绩效对比:DDPG-TiDE优于Q-learning且能超越买入持有[page::6][page::7][page::8]

- Q-learning策略倾向保守,重仓无风险资产,最终财富值远低于买入持有。
- DDPG-TiDE策略有效动态调整仓位,杠杆版本最终财富值最高(21.06),超越买入持有(17.77)。

- DDPG-TiDE平均12个月滚动夏普比率约为1.13(无杠杆)和0.99(有杠杆),均优于买入持有0.95,表明风险调整收益更优。

- 策略权重随时间动态调整,DDPG-TiDE策略在熊市期间减少风险暴露,牛市中利用杠杆加仓捕获收益。
奖励函数设计:结合凯利准则和CRRA效用优化长期资本增长[page::3][page::4]
- 采用对数效用(log-utility)及常数相对风险厌恶系数(CRRA),将长期财富最大化目标映射为累计对数收益的期望值。
- 通过MDP框架,奖励信号设置为折扣对数收益,确保即时反馈与长期投资目标一致。
Q-learning与DDPG对比与算法细节[page::4][page::5]
- Q-learning利用K-均值聚类构建离散状态空间,动作空间为0到1区间离散权重,操作简单但在实际连续调整中存在局限。
- DDPG采用确定性策略范式,结合两层TiDE编码网络提取时间序列特征,连续输出资产配置比例,实现更细粒度操作。
- 使用Ornstein-Uhlenbeck过程为DDPG增加探索噪声,多步回放缓冲区稳定训练。
未来工作方向[page::8]
- 将引入更多强化学习算法与成本约束,增强策略的实用性与鲁棒性。
- 探索多智能体模型,提供个性化投资方案,推动强化学习在资产配置领域的应用深化。
深度阅读
深度强化学习用于基于DDPG与TiDE的最优资产配置——详尽分析与解读
---
1. 元数据与概览
- 报告标题: Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE
- 作者及单位: Rongwei Liu 等,布里斯托大学计算机科学及工程数学与技术学院
- 发布会议及时间: 第24届国际建模与应用仿真会议(MAS 2025),第22届国际多学科建模与仿真多重会议(I3M 2025)
- 主题领域: 基于深度强化学习的资产配置,利用DDPG(深度确定性策略梯度)和TiDE(时序密集编码器)方法解决风险资产与无风险资产的配置问题。
核心论点:
报告提出,将最优资产配置问题建模为马尔可夫决策过程(MDP)内的序列决策任务,利用强化学习框架模拟金融市场动态,无需依赖传统的分布假设或非加性奖励指标。结合Kelly准则引导奖励设计,并创新闻利用TiDE编码器增强DDPG算法对时间序列金融数据的处理能力。实验显示DDPG-TiDE模型不仅较Q-learning执行更优,更能在风险调整后超越被动买入持有策略。报告强调集成此架构有望开辟资产配置新途径,实用价值显著。
[page::0] [page::1]
---
2. 逐节深度解读
2.1 引言及研究背景
- 要点总结:
金融市场资产种类繁复,回报率受多重风险因素影响。经典理论侧重通过均值方差优化(MVO)构造投资组合,但面临分布假设与参数估计不确定性。本文聚焦风险资产(以市场指数为代表)与无风险资产之间的动态配置,旨在最大化长远投资效果,跳出传统高维参数估计的陷阱,关注投资者具体偏好与市场动态。
- 逻辑基础:
传统资产组合方法如均值方差理论基于固定的资产收益分布假设,但实际中不确定且市场波动频繁。优化投资者个性化的长期目标需要灵活应对环境变化的机制。MDP框架适合此类动态决策,强化学习可以在无须明确假设分布的前提下,自适应市场信息,优化策略。
[page::0]
2.2 经典方法综述与强化学习兴起
- 均值方差优化(MVO)局限:
需要准确估计资产回报的第一、二阶矩(均值和方差),当资产数量增加时估计准确性下降,导致权重估计发散。
- 机器学习辅助优化:
采用机器学习模型调优超参数,最大化预期效用或最小化风险函数,前提仍是要掌握分布假设;但新兴方法(例如最大Sharpe比率回归 MSRR)尝试脱离分布限制,直接将效用最大化转化为参数估计问题。
- 强化学习(RL)应用:
强化学习利用市场交易中的奖励信号,迭代优化策略,已经在资产配置领域显现潜力。本研究基于MDP框架,采用Kelly效用准则构建奖励函数,融合TiDE模型提高时间序列多变量输入处理能力,提升策略动态适应性。
[page::1]
2.3 强化学习算法与Actor-Critic架构评述
- 强化学习分类:
按交互模式有在线与离线RL;按更新机制分为on-policy与off-policy;还有模型依赖与模型无关之分。金融领域偏好模型无关和off-policy离线学习,因实时市场交互高成本且风险大,历史数据充分利用关键。
- Q-learning和Policy Gradient优缺点:
Q-learning虽稳定,适合离散动作空间,但对连续动作支持能力弱,动作空间离散化限制表现。PG方法适合连续动作,但容易收敛慢且方差大。Actor-Critic融合两者优势,DDPG是此框架的典型实现,适合连续动作空间。
- 文献缺陷指正:
多数研究集中于特定市场或股票样本,忽略奖励设计的复杂性,尤其是Sharpe比率非加性与滞后性,使得学习信号与投资者实际目标背离。本文尝试解决这些缺陷,将Kelly准则精确定义奖励,更贴合投资者长期目标。
[page::1] [page::2]
2.4 方法论:Kelly策略、MDP与奖励设计
- Kelly准则与投资比例:
Kelly准则通过最大化投资组合的对数财富增长率以实现长期资本增长最优化。公式推导基于Ito引理,计算最优风险资产投资比例$\pi^ = \frac{\mu - rf}{Ra \sigma^2}$,其中$\mu$为期望收益,$rf$无风险利率,$Ra$风险厌恶系数,$\sigma$为波动率。
- MDP建模描述:
将投资过程建模为五元组$(S, A, P, R, \gamma)$表示状态空间、动作空间、状态转移概率、奖励函数和折扣因子。状态涵盖市场环境指标,如宏观因子,超额收益和波动率,动作体现持仓权重变化,奖励取对数收益。RL智能体通过大量模拟市场环境,学习最大化累计对数奖励以实现财富长期增长。
- 奖励函数定义:
引入CRRA效用函数刻画风险厌恶,当效用函数简化为对数形式时,最大期望效用等价于最大对数财富。即时奖励定义为$Rewardt = \gamma \ln(1 + rt)$,使得累计奖励$\sum{t=1}^T Rewardt$等价于对数财富最大化目标。此设计把短期奖励与长期效用目标统一,保证策略优化的一致性。
[page::2] [page::3] [page::4]
2.5 Q-learning实现细节
- Q-learning核心:
基于Bellman方程的时序差分更新,生成最优动作-状态价值函数$Q^(s,a)$的递归估计。更新公式
$$
Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)]
$$
其中$\alpha$为学习率。
- 具体实现:
由于状态空间为连续多维市场特征,采用K-均值聚类(k=50)将状态空间离散化,动作空间为固定离散权重$\omega\in\{0.0, 0.1, ..., 1.0\}$,支持有限精度的投资比重调整。设计包含50%杠杆版本,动作最大可至1.5倍投资。
- 基准策略:
买入并持有(Buy-and-Hold)策略设定权重$\omega = 1.0$,提供被动投资表现参照。这样可以检验积极策略(Q-learning)是否真正带来超额收益。
[page::4]
2.6 DDPG与TiDE的创新结合
- DDPG优势:
克服Q-learning动作离散限制,采用确定性策略,直接映射状态到连续动作,提升动作空间精细调控能力。利用actor-critic架构,actor产生连续动作,critic评估动作质量。
- TiDE编码器整合:
将TiDE时序密集编码器引入DDPG架构,对多变量时间序列数据进行深层次特征萃取。TiDE通过层叠全连接层与残差块加ReLU和层归一化处理,增强模型对时间相关性与不同宏观金融指标间复杂关系的捕捉。
- 模型架构:
- Actor网络输出$\omega \in [0,1]$(或带杠杆则$\in[0,1.5]$)。
- Critic网络同时接受编码器状态输出和当前动作,输出Q值估计。
- 利用软更新提升训练稳定性。
此结构使模型在处理复杂时间序列同时,实现高效、连续动作学习,性能优于传统Q-learning。
[page::5]
2.7 数据集与实验设计
- 数据源:
1927年至2019年间月度市场回报率(CRSP指数代理美国股市)与无风险资产回报率(美国国债指标),数据来自Fama-French数据库。包括11个宏观经济和金融预测指标(如股息收益率dp、盈利收益率ep、账面市值比bm等),加上过去12个月对数收益回溯特征。
- 样本分割:
- 训练集:1927-1957
- 验证集:1958-1988
- 测试集:1989-2019
- 实验组别:
- Q-learning(离散状态与动作,无杠杆$\omega\in[0,1]$及50%杠杆$\omega\in[0,1.5]$)
2. DDPG-TiDE(连续动作,无杠杆及杠杆版本)
- 买入持有策略(固定$\omega=1.0$)
- 训练细节:
DDPG采用Ornstein–Uhlenbeck过程引入动作噪声促进探索,利用带多步更新的经验回放缓冲区稳定训练。超参数通过网格搜索优化。三个性能指标包括对数效用累计奖励、累计财富值和12个月滚动夏普率。
[page::5] [page::6]
---
3. 图表深度解读
3.1 图1:测试集(1989-2019)下各策略的累计财富对比

- 描述:
该图展示测试期间四种策略(Q-learning无杠杆与杠杆、DDPG-TiDE无杠杆与杠杆、买入持有)随时间的累计投资组合价值走势。
- 数据与趋势解读:
- Q-learning系列曲线逐渐缓慢上升,杠杆版本略高,终值约4-4.6倍,明显低于买入持有。
- 买入持有策略增长平稳,终值高达约17.7倍。
- DDPG-TiDE无杠杆版本接近买入持有,终值14.8倍,杠杆版本更优,终值21.06倍,超过买入持有。
- 总体来看,Q-learning表现较为保守,倾向于持有无风险资产;而DDPG-TiDE勇于投资风险资产,具有更高收益表现。
- 文本联系:
图表支持主文中结论,DDPG-TiDE利用连续动作空间和TiDE时序特征,能更灵活捕捉市场动态,从而获得远超Q-learning且优于买入持有的收益。杠杆使用为DDPG-TiDE带来额外收益提升。
[page::6] [page::7]
---
3.2 图2:12个月滚动夏普比率测试集表现

- 描述:
展示各策略在测试期内基于12个月滚动窗口计算的夏普比率,衡量风险调整后的回报。
- 数据趋势解释:
- Q-learning波动较小,夏普比率长期接近零,尤其1992-2007间持续为零,反映其大量持有无风险资产导致收益平稳但无超额收益。
- DDPG-TiDE策略与买入持有走势高度相似,平均夏普比率分别约1.13(无杠杆)和0.99(杠杆),均优于买入持有的0.95。
- 杠杆使用虽然提高收益,但风险增加导致平均夏普比率略降。
- 文本联系和结论:
夏普比率数据验证DDPG-TiDE在风险调整后仍能超越买入持有,说明模型不仅追求绝对收益,也较好控制风险。
[page::7] [page::8]
---
3.3 图3:测试集资产配置权重时间序列对比

- 描述:
时间序列表示各策略每月分配于风险资产的权重,0代表全部投资无风险资产,1代表全仓风险资产,杠杆策略最高可达1.5。
- 数据及趋势洞察:
- Q-learning策略经常长时间保持于$w=0$区间,尤其1992-2007年,反映对风险市场规避明显。
- DDPG-TiDE更频繁地持有全部或超额风险资产,特别是杠杆版本,在牛市阶段积极加仓,利用杠杆放大收益。
- 买入持有权重固定为1,策略简单被动。
- 论据支持:
权重走势直接解释了上述投资策略表现差异。Q-learning保守分配导致收益受限;DDPG-TiDE动态调整权重,具备适时进出市场和杠杆操作能力,带来更优的累积财富和风险调整回报。
[page::7] [page::8]
---
4. 估值分析
本报告主要围绕资产配置策略性能评估,并不涉及公司估值模型,此处"估值"可理解为对投资策略收益与风险的计量和比较。报告使用的评估指标包括:
- 对数效用(Logarithmic Utility): 通过累计对数收益量化策略最大化长期资本增长目标的能力,体现Kelly准则下的效用最大化。
- 累计财富(Portfolio Value): 反映策略在测试期末的总财富积累,衡量绝对收益水平。
- 夏普比率(Sharpe Ratio): 滚动窗口计算,量化风险调整后的超额回报(均值除以标准差),对比策略在波动市场中的稳健表现。
这些指标共同衡量策略的有效性和投资者关注的风险回报平衡,确保模型不仅追求高收益,也关注风险控制。
[page::6] [page::7] [page::8]
---
5. 风险因素评估
- 模型风险与市场不确定性:
Kelly准则基于资产回报的对数效用最大化,但实际市场参数(均值、波动率)往往非正态分布且难以准确估计,存在模型误差。
- 训练数据代表性风险:
离线训练依赖历史数据,模型能否泛化到未来不同市场态势仍受限,特别是极端事件及市场结构变化可能导致策略失效。
- 杠杆使用风险:
杠杆虽提升潜在收益,但叠加风险,尤其市场波动剧烈时可能导致重大亏损。实验中杠杆版本夏普率略低,反映这种风险的真实体现。
- 强化学习算法本身的不确定性:
DDPG训练涉及非凸优化及策略稳定性挑战,可能陷入局部最优或表现不稳定。
- 缓解策略:
报告提出未来工作计划引入交易成本、罚则机制以及多智能体集成模型,用以提升策略稳健性和实用性。
[page::5] [page::8]
---
6. 批判性视角与细微差别
- 奖励设计优势及潜在不足:
采用Kelly准则与对数效用奖励,使短期行为与长期目标统一,理论上合理。但现实操作中对模型参数的准确性依赖较高,且忽略市场摩擦成本(交易费用、税收等),可能高估策略性能。
- 数据依赖与泛化局限:
训练数据自1927年至2019年涵盖多轮市场周期,但模型在极端金融危机或结构性变革下的适应能力尚不确定。
- 动作空间与逼近能力权衡:
虽然DDPG允许连续动作空间提高灵活度,但模型确定性策略可能减少探索多样性。是否存在策略过度拟合历史数据的风险不足为外界明确评估。
- 评价指标局限:
报告主要基于对数效用、累积财富与夏普率,缺少对最大回撤、胜率等其他实务关注指标的分析。
- 内部一致性分析:
报告文本与数据图表表现协调,无重大内在矛盾,论证严密但对实际落地细节讨论有限,尤其交易成本因素提及较晚并未来展望中体现。
[page::8]
---
7. 结论性综合
本文系统探讨基于深度强化学习框架DDPG融合TiDE时序密集编码器的资产配置新方法,成功将最优投资问题建模为MDP,利用Kelly准则统一奖励信号,实现了长期对数财富最大化目标。与经典Q-learning及买入持有策略对比,DDPG-TiDE:
- 在绝对收益表现上表现接近或超越被动策略,尤其杠杆版本在牛市阶段收益最大(终值21.06对比买入持有17.77);
- 在风险调整收益(12个月滚动夏普比率)表现略优于买入持有,达到平均1.13并优于Q-learning的低水平表现,证明策略兼顾风险控制;
- 拥有细粒度动作调控优势,因采用连续动作空间,利用TiDE深度编码提升时间序列多变量信号捕捉能力,使得资产配置动态调整更具适应性;
- 表现出不同策略风险偏好差异:Q-learning偏向保守,倾向持有无风险资产,DDPG-TiDE倾向风险资产,充分利用杠杆。
总体上,报告论证了基于TiDE增强的DDPG框架在资产配置领域的创新价值,为实现数据驱动的长期资本优化策略提供了有力工具。未来工作将重点考量交易成本、多智能体系统设计等实务挑战,推动策略向真实投资环境靠近。
[page::0] [page::5] [page::6] [page::7] [page::8]
---
附录
关键术语解释
- MDP(马尔可夫决策过程): 描述环境状态、动作、转移概率及奖励的数学模型,强化学习的基础框架。
- Kelly准则: 通过最大化投资组合的对数增长率,指导资金分配以实现长期资本增长最优。
- DDPG(深度确定性策略梯度): 适合连续动作空间的强化学习算法,结合策略梯度与价值估计,采用确定性策略。
- TiDE(时序密集编码器): 一种处理多变量时间序列的深度编码器,具备提取复杂时序依赖和潜在结构的能力。
- 夏普比率: 度量单位风险收益指标,计算超额收益均值除以收益标准差,以量化风险调整后的回报表现。
---
此详尽分析围绕论文的结构和数据展开,充分揭示每个章节的核心内容与推理逻辑,精准解读图表含义,严格配合引用页码溯源,确保全面准确,以供专家深入理解与应用研究参考。