`

Optimal Portfolio Construction - A Reinforcement Learning Embedded Bayesian Hierarchical Risk Parity (RL-BHRP) Approach

创建于 更新于

摘要

本文提出了RL-BHRP方法,将贝叶斯分层风险平价与强化学习结合,实现跨行业和个股的动态风险分配。在2012-2025年美国股票市场中训练并测试,RL-BHRP在测试期实现了约120%的累计收益,年化收益超过静态基准,兼顾了分散性和交易成本,实现了更强且稳定的长期表现[page::0][page::10][page::14][page::15]。

速读内容


方法创新:贝叶斯分层与强化学习融合的两层投资组合构建 [page::0][page::3][page::7]

  • 采用贝叶斯分层模型建立市场、行业与个股层次的收益预期与协方差矩阵。

- 设计两级权重映射,行业级权重与行业内个股权重分别约束在单纯形内,保证权重的可行性与唯一性。
  • 强化学习层基于马尔可夫决策过程,使用基于PPO的因子化softmax策略选择动态权重,纳入以风险贡献分散度和交易成本为惩罚的平均回报最大化目标。


量化算法实现细节 [page::6][page::7][page::8]

  • 使用带有内循环的Gauss–Seidel迭代解决行业和个股级风险平价权重。

- 贝叶斯后验分布逐步更新行业和个股收益均值和协方差。
  • 强化学习的奖励函数包含总回报扣除交易成本和分层风险贡献差异性惩罚。

- 提供了权重梯度的解析表达式,方便策略梯度计算。

回测结果与性能评估 [page::10][page::11][page::12][page::14][page::15]



| 指标 | RL-BHRP | BHRP | Benchmark |
|------------|----------|---------|-----------|
| 累计收益率 | 1.1996 | 1.0137 | 0.9141 |
| 年化收益率 | 15.16% | 13.36% | 12.33% |
| 年化波动率 | 17.37% | 16.52% | 17.28% |
| 夏普比率 | 0.905 | 0.846 | 0.763 |
| 最大回撤 | -20.33% | -19.10% | -18.32% |
| 信息比率 | 0.687 | 0.220 | - |
  • RL-BHRP相较静态贝叶斯HRP和等权行业基准显著提高回报与风险调整指标。

- 保持接近基准的Beta和低追踪误差,表明其风险暴露稳定。
  • 策略月均持仓换手率约0.60,交易成本低于预期收益的数量级。


投资组合权重动态演化分析 [page::11][page::12]



  • 组合仓位表现出行业与个股的适度轮动,且避开过度集中。

- 热力图展现了Top15资产权重随时间平滑变化,无剧烈波动,体现成本敏感和平滑调仓特性。
  • 组合持仓的余弦相似度均值为0.74,确认了持仓高稳定性与逐步调整。


研究局限与未来方向 [page::12][page::13][page::14][page::15]

  • 依赖Yahoo Finance调整收盘价,存在幸存者偏差及偶发企业行为调整误差。

- 贝叶斯假设中高斯收益模型忽视波动聚类与尾部风险,未来可扩展重尾模型。
  • 约束为多头全配,未纳入杠杆、卖空及复杂限制。

- 当前PPO训练以期望收益为目标,未来拟引入风险敏感算法如分布式RL和CVaR约束。
  • 建议未来利用滚动窗口重训练、支持更多市场、多频率调仓及深度模型集成。

深度阅读

《Optimal Portfolio Construction - A Reinforcement Learning Embedded Bayesian Hierarchical Risk Parity (RL-BHRP) Approach》报告详尽分析



---

1. 元数据与概览 (引言与报告概览)


  • 标题:Optimal Portfolio Construction - A Reinforcement Learning Embedded Bayesian Hierarchical Risk Parity (RL-BHRP) Approach

- 作者:Shaofeng Kang(多伦多大学),Zeying Tian(麦吉尔大学)
  • 发布时间:2025年8月19日

- 主题:基于强化学习嵌入的贝叶斯分层风险平价方法(RL-BHRP)用于股票投资组合构建和优化,具体聚焦于美股市场2012年至2025年。

核心论点和目标

报告提出了一种结合贝叶斯分层建模、分层风险平价(HRP)与强化学习(RL)的两层动态资产配置方法,旨在跨行业和个股分散风险,同时依据市场变化动态调整权重。与基准行业指数及传统静态风险平衡组合相比,该方法在2020年至2025年测试期实现了120%的资产复合增长,年均增长约15%,表现优于静态比较组合(13%)和基准指数(12%)。此外,该方法保持了与基准相近的波动水平和回撤风险,展示了风险控制与收益提升的兼顾能力。

关键词包含:强化学习、贝叶斯分层风险平价、投资组合优化、资产配置。[page::0]

---

2. 逐节深度解读



2.1 引言部分(第1页)


  • 现代组合理论(MPT)的挑战:虽然自Markowitz以来,MPT基于均值-方差优化方法在理论上奠定了资产配置基础,但其对预期收益的估计不稳定,导致极端权重波动和较差的样本外表现,因输入的噪声和误差放大效应(error maximization)所致。
  • 风险平价方法的演进:为解决收益预期误差影响,Maillard等(2008)提出了等风险贡献组合,通过协方差矩阵计算分配资产权重以平衡风险贡献。Lopez de Prado(2016)进一步提出分层风险平价(HRP),通过行业分层结构及递归均风险分配,改善了协方差矩阵逆矩阵不稳定问题,分散且稳定配置优于传统方法。
  • 贝叶斯方法应用:Cooper等(2020)在Black-Litterman框架中引入基于风险平价的先验,代替市场市值权重,更适合无市值权重的投资标的,提升风险配置效率。
  • 深度强化学习(DRL)在组合中的应用:Millea和Edalat(2022)设计两层架构,PPO(Proximal Policy Optimization)代理监督多个基于不同协方差窗口的HRP/HERC策略,将连续权重调节问题转化为离散模型选择,从而克服探索难题。此架构允许实现纪律化风控并在多资产类别表现优异。


作者借鉴和融合了上述理论和方法,为后文的RL-BHRP框架奠定基础。[page::1]

2.2 动机(第2页)


  • 强调传统均值-方差模型不稳定,风险平价虽稳定却忽略收益预期动态,强化学习可适应市场变化但缺乏风险约束且易导致资产集中和高换手率。
  • 现有方法如静态贝叶斯风险平价或DRL“切换”仅部分解决问题。静态模型无在线学习能力,DRL层仅在已有策略切换,事务成本常被忽略或低估,影响实际可操作性。
  • 提出RL-BHRP方法:统一贝叶斯估计、风险平价与策略梯度强化学习,形成闭环,解决上述缺陷。[page::2]


2.3 方法论(第2至8页,内容详尽,拆解如下)



2.3.1 贝叶斯分层结构(第3-4页)


  • 分层模型搭建


- 资产被归属至行业/部门层级($g=1,...,G$),每个层级定义潜在的预期收益和风险参数。

- 预期收益$\mui$服从随部门均值$\mug$变动的高斯分布,部门均值又服从市场均值$\muM$的高斯先验。

- 协方差矩阵利用部门结构分块,资产的波动率同样可向部门层级做收缩估计。

- 该结构能通过信息共享稳健估计,提升样本较少资产的参数稳定性。
  • 组合权重定义


- 设定两级权重结构:部门权重$W \in \Delta
G$(G维单位单纯形),部门内部权重$\eta^{(g)} \in \Delta{ng}$。

- 资产权重为 $wi = W{g(i)} \eta_{i|g(i)}$,满足总和为1。

- 证明该映射在各权重内部有一一对应反函数,数学上保证权重结构的完备性和可逆性。
  • 风险贡献分解


- 资产和部门级风险贡献定义明确,通过层级协方差矩阵的块组成,组合整体波动率和风险贡献得以分解。
  • 风险平价条件及其求解


- 等风险贡献条件在部门层面和部门内资产层面分别设定,基于固定点迭代求权重。

- 当协方差矩阵块对角化时,问题分解为经典风险平价问题,存在唯一解。
  • 事务成本模型


- 设有比例交易成本$ c $,基于权重变化的绝对值计算交易成本,加入优化框架确保考虑换手的经济代价。[page::3-5]

2.3.2 算法实现(第6-7页)


  • 采用基于Gauss-Seidel的块迭代固定点方法,交替优化部门层权重$W$和部门内权重$\eta$,确保风险贡献平衡。
  • 使用对数域牛顿方法(log-Newton)解决部门层风险平价的KKT系统,算法具有全局收敛性和二次局部收敛速度,计算开销对中等规模部门数目($G \leq 20$)是轻量级。
  • 贝叶斯后验更新步骤:对各资产样本均值和方差计算,结合部门均值先验计算资产后验均值,Ledoit-Wolf方法或类似收缩计算协方差矩阵。
  • 强化学习层设计:


- 状态包含过去k期回报滞后、当前贝叶斯均值和协方差对角项,以及上期权重。

- 动作为两层权重参数,确保最终资产权重仍居于单纯形内。

- 奖励函数结合资产收益、交易成本,以及加权的内部和部门间风险贡献离散度罚项,控制风险预算偏差。

- 使用因子化softmax策略网络,将连续权重参数化转化为对数几率,保证权重可微且完整表示。

- 证明奖励对权重局部Lipschitz连续,策略梯度存在且具有标准政策梯度表达式。
  • 策略训练采用PPO算法,结合基线价值函数,采用优势估计提升训练稳定性。
  • 可选的后处理步骤允许权重投影到严格风险平价集合,确保准确风险预算。


[page::6-8]

2.4 结果分析(第9-12页)



2.4.1 数据与实证设定


  • 使用Yahoo Finance调整收盘价数据,时间跨度2012年1月至2025年8月。
  • 划分训练区间(2012-2019)用于模型训练和调参,测试区间(2020-2025.08)进行严格样本外评估。
  • 投资标的采用季度评估流动性和价格筛选的股集合,固定季度内避免前瞻偏差。
  • 选取大盘蓝筹覆盖11个GICS行业,控制计算成本且保持层级结构完整(详见表1)。


2.4.2 综合业绩表现


  • 累计财富曲线显示RL-BHRP在测试期远超静态BHRP和行业ETF基准,涨幅从2023年中起差距扩大明显(图1)。
  • 期间累计回报最高接近120%,年化复合增长率15.16%,较BHRP(13.37%)和基准(12.33%)分别提高了1.81和2.83个百分点。
  • 年化波动率适中(17.37%),仅略高于BHRP(16.52%)和基准(17.28%),但夏普比率和索提诺比率均领先,彰显优越的风险调整回报。
  • 最大回撤约20.33%,略高于BHRP和基准,但对应的Calmar比率更优,说明跌幅恢复更快。
  • 跟踪误差低(3.69%),Beta接近1(0.983),信息比率达0.687,明显优于BHRP的0.220。
  • 统计检验指标(Jensen alpha约2.76%)支持组合在控制风险的前提下实现超额收益。
  • VaR和CVaR的尾部风险介于BHRP和基准之间,符合动态调整策略的风险预期。
  • 月度正收益占比(hit rate)为64.2%,高于基准(62.7%),表明稳定性较高。


表2详细总结了上述量化指标。[page::9-11]

2.4.3 权重动态与行为分析


  • 权重热力图(图2)显示分散而有结构的持仓调整,关键大市值股票(如PLD、AMZN、META、XOM等)权重适中且波动平滑,没有出现极端集中。
  • 叠加面积图(图3)显示前15大持仓资产的权重占比近0.5,变化趋势柔和,与风险预算和交易成本约束相符合。
  • 换手率平均约0.6,盘中95分位换手为0.85,对应每月交易成本约3个基点,仅占策略平均月收益的一小部分。
  • 权重调整的余弦相似度平均为0.74,体验月度配置变化缓慢且持续性强,说明组合再平衡节奏合理,避免过度交易。
  • 这些动态与设计相符:贝叶斯滤波提供稳定输入,分层风险平价遏制集中风险,强化学习层实现系统的逐步动态调整,交易成本惩罚抑制不必要的换手。[page::11-12]


2.5 局限性与未来方向(第12-15页)


  • 数据与样本限制


- Yahoo Finance数据缺失退市收益,可能存在生存者偏差。

- 出于计算考虑,实验采用子集,少量限制了层级结构和风险分散效益。

- 未来建议采用无生存者偏差数据库(如CRSP)并扩展至完整指数。
  • 模型假设限制


- 贝叶斯层基于高斯假设,难以捕捉收益的厚尾、偏态及波动簇集,未来可引入Student-t、偏态分布和动态波动率模型提升拟合。

- 先验参数固定,未来拟合超先验可进一步增强估计适应性。
  • 风险预算与约束


- 当前风险平价通过软约束罚项实现,不能保证完全等风险贡献,硬约束或更合适的散度度量(如熵)可供探索。

- 组合限制仅考虑长仓、全额投资、每月再平衡,未来需考虑杠杆、卖空、换手限额等实际投资限制,同时加入市场冲击成本模型。
  • 强化学习设计


- PPO方法对奖励尺度敏感,且优化的是预期收益,未来考虑CVaR等风险敏感指标、带约束的策略优化。

- 状态定义仅含滞后收益及贝叶斯统计量,缺失宏观因子、期权隐含波动率等信息,且未利用循环/注意机制减缓部分可观测性限制。

- 训练仅在2012–19年进行,测试期不再训练,静态模型难以应对非平稳数据,未来需设计滚动训练或离线强化学习适应环境变化。
  • 评估方法改进


- 当前采用单次固定训练测试划分,未来考虑多窗口滚动测试、因子模型alpha评估、Sharpe比率差异统计检验等。

- 并需做交易成本敏感性、容量限制及冲击成本分析以验证经济意义。
  • 理论基础


- 两级风险平价固定点的存在唯一性及收敛速率尚未严谨证明,RL层泛化性能和稳定性缺少遗憾界(regret bound),期待未来理论完善。
  • 未来研究方向


- 扩展至无生存者偏差数据,国际市场,细化再平衡频率和冲击成本模型。

- 引入厚尾/动态协方差,超先验自动调整,风险敏感强化学习目标,端到端可微优化层嵌入等。

- 基础架构加速、公开可重复代码及系统性消融实验。[page::12-15]

---

3. 图表深度解读



3.1 图1:测试期累计财富曲线




  • 曲线展示了从2020年2月至2025年8月间,RL-BHRP(黄色)相较于BHRP(橙色)与基准(红色)的财富增长情况。
  • RL-BHRP保持领先,特别是2023年中后财富增速显著高出其他组合。
  • 走势平滑,无剧烈波动,体现了策略的风险控制属性。
  • 该图强调RL-BHRP带来的绝对收益优势及较好顺周期表现,支持文本中收益提升的论断。


3.2 表2:全周期关键绩效指标



|指标|RL-BHRP|BHRP|基准|
|-|-|-|-|
|总累计回报|1.1996|1.0137|0.9141|
|年复合增长率|15.16%|13.36%|12.33%|
|年化波动率|17.37%|16.52%|17.28%|
|夏普比率|0.905|0.846|0.763|
|最大回撤|20.33%|19.10%|18.32%|
|跟踪误差|3.69%|3.58%|0%|
|信息比率|0.687|0.220|NaN|
|Jensen Alpha|2.76%|1.64%|0%|
|VaR 5%|–7.41%|–6.72%|–8.00%|
|CVaR 5%|–10.24%|–9.70%|–10.34%|
|月正收益率|64.2%|64.2%|62.7%|
  • 该表深入量化不同策略的收益、风险、风险调整收益及风险特征。
  • RL-BHRP均优于对照策略,综合评估强化其提升业绩和控制风险的能力。


3.3 图2:RL-BHRP前15大资产权重热力图




  • 展示2020至2025年间月度调仓中15个核心资产权重分布的变化。
  • 色彩变化逐渐且无明显跳变,体现平稳的动态调整。
  • 资产间权重互相替代,保持分散化。


3.4 图3:前15大资产权重堆积面积图




  • 反映核心资产合计占比一般维持在50%左右,且随时间轻微波动。
  • 图中平滑的区域迁移表明策略对行业和资产的动态调节能力,同时保证整体风险结构稳定。


---

4. 估值分析



本报告并非对单一标的的估值报告,而是提出并评估一种资产配置方法。估值部分涉及:
  • 贝叶斯分层的资产期望收益和协方差估计,通过多层高斯先验和Ledoit-Wolf收缩提高估计稳定性。
  • 风险平价权重固定点解的数值求解,运用对数-牛顿迭代算法解决风险预算条件下的权重分配,确保风险贡献均衡。
  • 强化学习策略的优化基于策略梯度方法求解平均奖励MDP,强化学习部分设计涵盖动作参数化、奖励函数、状态转移及策略更新机制。


无传统的DCF或市场倍数估值框架,但算法通过概率与风险预算约束函数潜在体现了收益与风险的权衡,属于动态优化范畴。[page::3-8]

---

5. 风险因素评估



报告识别并讨论主要风险:
  • 数据风险:采用Yahoo财经数据可能导致生存者偏差及数据缺失风险,影响策略表现真实性。
  • 模型风险:贝叶斯部分基于正态假设,难捕捉资产收益厚尾和非线性特征,风险预算通过软罚项实现不保证严格执行。
  • 交易成本及市场冲击风险:当前模型中交易成本较为简单且假定比例费用,未包含市场冲击模型,可能导致实际运营成本高于预期。
  • 策略稳定性风险:强化学习策略训练于固定历史区间,无在线再训练,容易受市场结构变动影响。
  • 操作风险:多级风险平价和分层策略可能增加算法复杂度,实施可能面临技术和计算资源限制。


报告建议在未来研究中引入更丰富的约束条件、风险度量工具和鲁棒训练方法应对上述风险。[page::12-15]

---

6. 批判性视角与细微差别


  • 报告显示出较为科学和谨慎的态度,对方法优势及局限均有深刻反思。
  • 强调数据来源和样本选择限制对结论的影响,体现良好实验设计原则。
  • 贝叶斯模型高斯假设和风险预算软约束等方面仍是可改进之处,且RL训练策略单区间固定,造成适用性风险,作者提议多角度补偿。
  • 与现有基准和多样化风险管理方法相比,RL-BHRP确实在特定窗口表现优异,但更广泛适用性和稳健性尚需验证。
  • 实际操作中的交易成本模型较为简单,未充分考虑大规模市场影响。
  • 理论方面,风险平价的固定点性质和RL在非平稳市场的泛化性能缺少完全理论支撑。


整体分析显得稳健,未夸大成果,有利于业界和学术界参考和拓展。[page::12-15]

---

7. 结论性综合



本报告系统提出并验证了创新的RL-BHRP组合构建框架,立足于贝叶斯分层模型稳定估计收益风险参数,结合两级风险平价实现资产与部门间的风险平衡,并通过强化学习策略动态调整权重组合,兼顾收益提升和风险控制。实证结果表明:
  • RL-BHRP在严苛的2020-2025年测试周期,实现120%累计收益及15.16%年复合增长,优于静态贝叶斯风险平价及行业等权基准。
  • 策略风险调整后表现突出,夏普比率接近0.9,最大回撤与基准相近但具更优Calmar比率。
  • 权重动态平滑合理,换手率低且分散投资,充分利用贝叶斯和风险平价层级结构优势,强化学习层面实现市场动态应变且控制交易成本。
  • 理论和算法方面,风险预算采用对数域牛顿法确保数值稳定收敛,强化学习策略具备良好的政策梯度理论支撑。
  • 报告明确指出数据和模型假设局限,提出未来多方面改进方向,特别是引入更复杂统计模型和风险敏感强化学习策略。
  • 总体上,RL-BHRP是一套实用且创新的多层次风险控制动态资产配置方案,对机构投资组合管理提供可行参考框架。


该框架与策略在保持可解释性和风险可控性的同时,为多资产长期稳健增值提供了有效路径,具备学术和实际应用双重价值。[page::0-15]

---

综上所述



该报告以扎实的贝叶斯统计和风险平价理论为基石,结合当下先进的强化学习技术,提出了系统性策略实现资产配置的动态适应与风险均衡。丰富的数学定义、理论证明和算法细节体现较高专业水平。实证佐证充分展示该方法在真实市场行情下优异表现,且对风险和交易成本有合理控制。报告对理论和实际问题洞察深刻,给出明确改进建议,体现对投资组合优化领域的贡献和推动。整体内容专业、详尽、富有启发。

此分析试图涵盖报告中的所有关键信息点及图表数据,做到全面深入且条理清晰,符合金融研究报告解构的高标准。

---

参考文献摘录(仅作索引,具体内容详见报告末尾)


  • Maillard et al. (2008): Equal risk contributions

- Lopez de Prado (2016): Hierarchical Risk Parity
  • Cooper et al. (2020): Bayesian Enhanced RP

- Millea and Edalat (2022): DRL with HRP
  • Feng and He (2022): Bayesian Hierarchical Methods for Factor Investing


---

如需对报告中某些算法步骤或数学推导进行进一步技术解释,欢迎提出。

报告