`

Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization

创建于 更新于

摘要

本报告探讨了在均值方差组合优化(MVO)中,决策导向学习(DFL)如何调整股票收益预测模型以提升决策效果。与传统最小均方误差(MSE)模型均匀处理所有资产误差不同,DFL通过引入协方差矩阵逆${\boldsymbol{\Sigma}}^{-1}$,差异化关注不同资产误差,重点减少优秀资产预测误差,从而显著提高组合决策质量和投资绩效。实验证实,随着模型越趋向DFL,其预测与真实期望收益的相关性增强,投资组合的夏普率和累计收益亦明显提升 [page::0][page::1][page::2][page::3][page::4][page::5][page::6]。

速读内容

  • 研究背景与问题陈述 [page::0][page::1]:

- 均值方差优化(MVO)依赖资产预期收益$\mu$、协方差矩阵$\Sigma$的精确估计,传统预测模型最小化均方误差(MSE)未区分不同资产预测误差的重要性。
- 决策导向学习(DFL)结合预测与优化阶段,通过最小化投资决策的后悔值来提升组合表现。
  • DFL原理与方法 [page::1][page::2]:

- DFL训练通过联合损失函数$\mathcal{L}\mathrm{Combined} = \alpha \mathcal{L}\mathrm{MVO} + (1-\alpha) \mathcal{L}_\mathrm{MSE}$平衡预测准确度与组合决策效果。
- 解析表明DFL对收益预测梯度加入了协方差逆$\Sigma^{-1}$的调节,即歪斜传统MSE梯度,增强对关键资产影响的权重。
  • 实验设计与数据说明 [page::3]:

- 使用Kenneth French的10个行业组合数据(2019-2024),确定30天历史收益作为特征,预测未来1天收益。
- 训练多层感知机模型(MLP),对不同$\alpha$和风险厌恶系数$\lambda$进行测试,采用400天训练,100天验证,100天测评分割。
  • 性能评价指标及结果 [page::3][page::4][page::5]:

- 关键指标包括归一化决策质量(NDQ)、MVO损失、MSE损失,投资绩效指标为夏普率、累计收益,及预测-最优组合夹角余弦相似度。

| $\alpha$ | $\lambda$=1 NDQ | $\lambda$=3 NDQ | $\lambda$=5 NDQ | $\lambda$=10 NDQ |
|----------|-----------------|----------------|----------------|-----------------|
| 0 | 0.218 | 0.631 | 0.773 | 0.890 |
| 0.25 | 0.199 | 0.650 | 0.791 | 0.899 |
| 0.5 | 0.190 | 0.680 | 0.812 | 0.912 |
| 0.75 | 0.168 | 0.693 | 0.804 | 0.912 |
| 1 | 0.607 | 0.757 | 0.878 | 0.947 |

- 归一化决策质量和夏普率通常随着$\alpha$增加(越DFL化)而提升,且组合与最优组合余弦相似度增强,说明DFL使预测更有利于决策。

  • DFL如何差异化减少不同资产误差 [page::4][page::5][page::6]:

- DFL通过引入$\Sigma^{-1}$调整预测误差梯度,重点减少协方差逆值大的“好资产”误差,放宽对低影响资产的关注,体现决策导向特征。
- 实验中DFL预测与$\Sigma^{-1}$呈显著高相关,而传统MSE预测与$\Sigma^{-1}$无明显相关。
  • 结论与未来展望 [page::6]:

- DFL显著改进基于MVO的投资决策质量。
- 预测价值排序(资产间相对次序)比均方误差绝对大小更重要。
- 未来可拓展至其他投资风险度量和组合优化模型,测试更多数据集与模型泛化性。

深度阅读

详尽分析报告:Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization



---

1. 元数据与概览


  • 报告标题:Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization

- 作者与机构:Junhyeong Lee, Inwoo Tae, Yongjae Lee,均来自韩国蔚山科学技术院(Ulsan National Institute of Science and Technology)
  • 日期:未明确给出具体发表日期,但文中引用到2024年文献,故研究较新

- 主题:将“决策聚焦学习”(Decision-Focused Learning, DFL)应用于Mean-Variance Optimization(MVO,均值-方差优化)组合构建,分析如何通过DFL调整股票收益预测模型改善投资决策的有效性。
  • 核心论点:传统MVO依赖于对期望收益、方差和协方差矩阵的准确估计,而这些参数本质上存在不确定性。机器学习模型通过最小化预测误差(如MSE)来估计这些参数,但这种均等对待所有资产误差的方法未必有助于优化决策。DFL作为一种框架,将预测和优化耦合,旨在直接最小化基于预测进行的决策的次优损失(Regret),以提升组合表现,但其对股票收益预测模型内部机制的具体调整尚未深入研究。本文重点回答“DFL相比MSE损失如何差异化降低不同资产的预测误差”,进而揭示预测模型对有效组合构建的重要指导意义。[page::0,1]


---

2. 逐节深度解读



2.1 报告背景与问题提出(Sections 1-2)


  • 均值-方差优化(MVO)基础与风险

MVO旨在最大化期望收益给定风险约束或反之,是现代投资组合理论的基石[22]。但投资回报本身高波动且难以准确预测。早期研究指出,输入参数(尤其是资产期望收益$\mu$)的估计误差会显著影响优化结果,有时甚至使MVO表现不及均等权重组合[7, 23]。尽管已有丰富文献探究估计误差对性能影响,但对误差“分布形态”与MVO优化结果的关联仍缺乏细致研究。[page::0,1]
  • 预测-再优化(Predict-then-Optimize)与DFL

传统机器学习模型多独立预测期望收益,训练目标如MSE均等对待所有资产预测误差。而DFL提出训练目标应直接基于最终优化决策的性能损失(Regret)设计,以联动预测与优化阶段,提升决策质量[10,11,31]。但此前文献多关注DFL在提升决策表现上的经验效果,缺乏对其对预测模型参数调整机制的剖析。[page::0,1]
  • 研究问题

本文聚焦DFL下预测模型的改变方式,具体探讨“如何通过DFL减少不同资产的预测误差,使得整体投资组合达到最优决策目的”,为构建更合理的预测模型提供科学指引。[page::1]

2.2 DFL与MVO数学框架(Section 2)


  • MVO模型

目标函数为最大化组合收益减去风险惩罚(风险参数$\lambda$乘以组合方差),约束权重和为1且非负约束:
$$
\maxw w^T \mu - \lambda w^T \Sigma w \quad s.t. \quad \sumi wi=1, \ 0 \leq wi \leq 1
$$
其中$\mu$为资产期望收益,$\Sigma$为收益协方差矩阵。
  • Predict-then-Optimize

机器学习模型定义为$F\theta$,输入特征$x$,输出$\hat{c}$(预测参数,一般是$\hat{\mu}$),训练通常通过最小化MSE或交叉熵与真实参数$c^$的误差实现。优化问题解为$w^(\hat{c})$。
  • 决策聚焦学习(DFL)的关键思想

训练过程中直接最小化基于预测参数下的决策次优损失:
$$
\text{Regret}(w^(\hat{c}), c) = f(w^(\hat{c}), c) - f(w^(c), c)
$$
这里,$f(w,c)$是优化目标函数值,$w^
(c)$是在真实参数$c$下的最优解。DFL将损失函数依赖于决策的表现而非单纯的预测误差。
  • 实现难点

DFL主要难点在于优化解对预测参数$\hat{c}$的导数计算,因为$w^(\hat{c})$由argmin运算获得且通常没有封闭式导数。文中选用直接求解优化问题配合数值求导,放弃高效性优先目标为探索模型行为。
  • 对期望收益$\mu$的训练

使用已有样本数据计算样本协方差矩阵$\hat{\Sigma}$作为协方差输入,重点研究预测$\hat{\mu}$如何随着训练方法(MSE、DFL及混合)改变。[page::1,2]

2.3 目标函数与训练策略(Section 3)


  • 定义MVO regret loss为

$$
\mathcal{L}
{\mathrm{MVO}} = f(w^
(\hat{\mu}), \mu^) - f(w^(\mu^), \mu^)
$$
即用预测$\hat{\mu}$计算的投资组合收益减去真实$\mu^$下的最优收益差。
  • 为分析中间态,定义结合损失(Combined loss):

$$
\mathcal{L}{\mathrm{Combined}} = \alpha \mathcal{L}{\mathrm{MVO}} + (1-\alpha) \mathcal{L}{\mathrm{MSE}}
$$
其中$\alpha\in[0,1]$控制DFL成分比例,$\alpha=0$为纯MSE训练,$\alpha=1$为纯DFL训练。
  • 训练目标为在不同$\alpha$下观察预测模型如何改变,进而分析DFL怎样调整模型权重以实现更优决策。[page::2]


2.4 理论分析(Section 4)


  • 简化问题到Sharpe比率最大化,形式为

$$
\max
w \frac{w^T \mu}{\sqrt{w^T \Sigma w}}
$$
其无约束解为
$$
w^
(\mu) = \Sigma^{-1} \mu
$$
  • DFL梯度分析

计算Sharpe比率关于模型预测$\hat{\mu}$的梯度,导数结果为
$$
\frac{\partial SR(\mu^, \hat{\mu})}{\partial \hat{\mu}} = \frac{\Sigma^{-1} (\mu^ - SR(\mu^, \hat{\mu}) \hat{\mu})}{SR(\hat{\mu}, \hat{\mu})}
$$
  • 相比传统MSE梯度(逐个资产误差$\mui^ - \hat{\mu}i$均等考虑),DFL梯度自动考虑资产协方差矩阵逆$\Sigma^{-1}$,意味着:

- DFL训练在调整预测误差时会更多关注线性关联性强、对优化目标影响大的资产方向
- 换言之,预测误差调整非均衡,而是受资产风险结构影响,体现“有选择地降低误差”。
  • 该理论发现为DFL优化机制提供深刻数学基础:[page::2,3]


2.5 实验设计(Section 5.1)


  • 数据集:美国Kenneth French工业10个行业组合,时间跨度2019-2024年,分训练集(400日)、验证集(100日)、测试集(100日)

- 输入特征:过去30日的日收益率
  • 模型结构:多层感知机(MLP),2层,320个隐藏节点,学习率1e-3,批大小32,最多训练5000步,早停设置

- 训练策略:每日滚动更新$\hat{\mu}$,协方差用样本协方差计算,目标函数根据不同$\alpha$设计(MSE和MVO损失加权)[page::3]

2.6 评估指标(Section 5.2)


  • Normalized Decision Quality (NDQ)

$$
NDQ(\hat{\mu}) = \frac{DQ{\mathrm{Model}} - DQ{\mathrm{Random}}}{DQ{\mathrm{Optimal}} - DQ{\mathrm{Random}}}
$$
其中$DQ{\mathrm{Model}} = \mu^{T}w^(\hat{\mu}) - \lambda w^{T}(\hat{\mu}) \Sigma w^{}(\hat{\mu})$,随机预测用随机生成$\hat{\mu}$估计,理想NDQ范围0-1。
  • Sharpe Ratio

衡量风险调整后收益的经典指标。
  • 累计回报

时间序列收益乘积,综合反映长期投资绩效。

这些指标结合用于全面评估模型基于不同训练损失的有效性。[page::4]

2.7 关键实验结果(Section 5.3 - 5.5)


  • 性能表现(表1)

- NDQ随$\alpha$上升普遍提升,说明更多DFL成分提升决策质量。
- $\lambda$较大时(表示更重风险厌恶),NDQ随$\alpha$变化的幅度下降,可能因空间有限。
- MVO损失随着$\alpha$增加明显下降,印证DFL训练能有效优化目标。
- MSE损失最小值出现在非零$\alpha$值(如0.75),纯MSE损失模型($\alpha=0$)表现不一定最好,表明DFL可能增强模型鲁棒性。
- 纯DFL模型($\alpha=1$)对MSE损失过度放大,可能因只关注决策质量忽视预测误差尺度。[page::3,4]
  • 投资表现(图2)

- Sharpe比率和累计回报随$\alpha$渐增,总体趋势向好,尽管不是严格单调。
- 提示DFL有助于提升实际投资效果。
  • 组合相似性(表2)

- 用余弦相似度衡量预测组合$w^(\hat{\mu})$与最优组合$w^(\mu^)$的接近程度,结果显示随着$\alpha$升高,相似度显著提升。
- 表示DFL训练使预测参数产生更接近最优配置的组合权重。
- 同样,$\lambda$较大时不同$\alpha$的差异缩小。
  • 预测与协方差矩阵关系(表3)

- 高$\alpha$情况下,$\hat{\mu}$与$\Sigma^{-1}$、以及$\hat{\mu}$与$w^
(\hat{\mu})$之间相关性显著增强,印证理论结论,即DFL训练迫使预测关注资产协方差结构。
  • 预测值相关性(图3)

- $\mu^$与$\hat{\mu}$相关度随$\alpha$提高,表明DFL训练倾向于提升预测排名或顺序的准确性,关注排名比均方误差更重要。
  • DFL训练的本质结论

- DFL不均等地减少不同资产的预测误差,更多关注“好资产”($\Sigma^{-1}$平均较大)上的小误差,允许“坏资产”误差较大无伤大雅。
- 这种“重点式”的误差权重调整揭示了DFL在实际投资中的高效性根源。[page::4,5,6]

---

3. 图表深度解读



3.1 图1(页面2)


  • 内容:展示DFL训练流程

- 流程描述
- 输入历史数据及特征$x$
- MLP预测模型输出$\hat{\mu}$
- 优化层求出基于$\hat{\mu}$的最优组合$w^
(\hat{\mu})$
- 计算MSE损失和MVO regret损失,组成加权综合损失$\mathcal{L}
{combined} = \alpha \mathcal{L}{MVO} + (1-\alpha) \mathcal{L}{MSE}$
- 反向传播梯度更新预测模型参数
  • 作用:形象体现DFL如何通过联合损失实现预测与优化端的联动训练。[page::2]


3.2 表1(页面3)


  • 内容:NDQ、MVO Loss、MSE Loss在不同$\lambda=\{1,3,5,10\}$和$\alpha=\{0,0.25,0.5,0.75,1\}$组合下均值和标准差。
  • 解读

- NDQ从$\alpha=0$逐渐提升,纯DFL($\alpha=1$)时最高,表明DFL提升决策质量。
- MVO Loss随$\alpha$降低,反映DFL训练目标对优化目标的直接影响。
- MSE Loss非单调,$\alpha=0.75$时最低,表明混合学习提高预测模型鲁棒性和泛化能力。
- 纯DFL模型在MSE误差上大幅爆炸,预测数值可能偏离真实值尺度。
  • 结论:DFL赋予模型更强的决策导向,但过度注重决策结果会牺牲预测准确度尺度。平衡两者的联合训练或更优。[page::3]


3.3 图2(页面4)


  • 内容:不同$\lambda$和$\alpha$下Sharpe比率与累计收益的箱线图。
  • 解读

- Sharpe比率和累计收益整体随$\alpha$上升明显增长,验证DFL改善投资表现。
- 但部分区间波动较大,说明优化目标、实际投资风险偏好和收益波动存在不完全一致性。
- 趋势曲线支撑DFL逐渐替代传统MSE训练的效果。
  • 结论:DFL将训练目标贴合现实投资风险收益框架,提升组合的风险调整收益和长期表现。


3.4 表2(页面5)


  • 内容:不同$\lambda$和$\alpha$下预测组合与最优组合的余弦相似度均值和标准差。
  • 解读

- 随$\alpha$升高,余弦相似度稳步提升,最高可达0.9以上,表明DFL预测能产生极为接近最优的权重配置。
- $\lambda$越大,整体余弦相似度越高,且不同$\alpha$间差异变小,说明风险偏好越强,组合权重趋于收敛。
  • 结论:DFL机制使得预测优化后的组合权重有效向最优组合逼近,显著提升决策精度。


3.5 表3-4(页面5-6)


  • 内容

- 表3展示$\hat{\mu}$、MSE、$\Sigma^{-1}$及$w^(\hat{\mu})$等指标间的相关性,$\alpha=0$与$\alpha=1$比较。
- 表4显示不同$\lambda$与$\alpha$下的余弦相似度变化。
  • 解读

- 纯DFL训练时($\alpha=1$),$\hat{\mu}$与$\Sigma^{-1}$及$w^
(\hat{\mu})$相关性均显著提升(绝对值大),验证DFL训练依赖资产风险结构。
- MSE与$\hat{\mu}$的相关性在纯DFL时反向明显,体现预测误差不再均等对待。
- 表4余弦相似度表现随着$\alpha$和$\lambda$提升,凸显DFL和风险偏好对预测的调整作用。
  • 结论:DFL训练深度关联资产协方差信息,稳妥调整预测误差,围绕最优投资组合寻找最有价值的预测方向,非均一漠视。


3.6 图3(页面5)


  • 内容:不同$\lambda$和$\alpha$下真实$\mu^*$与预测$\hat{\mu}$的相关性箱线图。
  • 解读

- 相关性明显随$\alpha$升高增加,代表DFL更强调预测值排名顺序的准确性,而非绝对数值精度。
- 与纯MSE训练的规模误差爆炸对比,强调DFL的排序优化本质。
  • 结论:DFL优化的预测模型有效锁定收益排序,更利于生成优质投资决策。


---

4. 估值分析



本报告核心聚焦于DFL技术和MVO组合决策过程优化,未涉及传统意义上的估值分析(如企业价值估值方法)。其价值体现为通过均值-方差优化框架中的预测误差调整带来的投资组合绩效提升。

---

5. 风险因素评估


  • 输入参数估计误差风险

MVO敏感于$\mu$和$\Sigma$估计误差,过度关注错误高的资产可能造成投资组合性能下降。DFL通过调整训练机制试图缓解该风险。
  • DFL训练稳定性与计算复杂度风险

DFL训练涉及对优化解的梯度计算,计算复杂度高且不稳定,对复杂模型或大资产池可能面临训练瓶颈。
  • 过拟合与鲁棒性风险

纯DFL模型尽管在决策指标表现突出,但MSE大幅上升表明预测模型可能产生极端预测值,从而失去泛化能力。
  • 数据依赖风险

研究基于Kenneth French工业组合数据,数据特性和时间段限制结果的通用性和稳健性。

报告未显著提出缓解策略,但强调综合利用MSE与DFL损失平衡,并以多次随机种子实验验证稳定性,部分降低过拟合和随机性的风险。

---

6. 批判性视角与细微差别


  • 假设限制

- 文章聚焦于基础MVO模型,未扩展至其他复杂组合模型(如CVaR、Black-Litterman),未来拓展空间大。
- 协方差矩阵固定使用样本估计矩阵,忽视了协方差估计自身的误差和不确定性,实际应用中这可能带来估计偏差。
  • 单一模型结构

仅用MLP预测模型,模型复杂性受限,其他如递归神经网络、Transformer等的适用性未涉及。
  • DFL梯度计算方式

采用直接解决优化问题数值求导,效率较低,限制在规模更大资产池的实用性。
  • 过度关注排名

DFL提升了预测输出排序准确性,却伴随预测值放大、MSE激增,提示决策质量提升与预测误差衡量指标之间存在权衡,需谨慎应用。
  • 数据的时间性和经济周期

数据覆盖周期有限,难以体现宏观经济波动、市场结构变化对模型适用性的影响。

这些潜在不足提示未来需结合更复杂模型、丰富数据,评估协方差误差并优化训练效率,以实现更广泛实用的DFL-MVO结合方法。

---

7. 结论性综合



本文通过将决策聚焦学习(DFL)引入均值-方差优化(MVO)框架,综合理论和实证分析,深入揭示了DFL对预测模型内部机制的影响,具体结论如下:
  • DFL显著提升MVO基于预测的决策质量,通过加入基于投资组合目标的regret损失而非传统均方误差损失,训练出的预测模型使得最终投资组合的风险调整收益和决策质量明显提高。
  • DFL通过内嵌资产协方差逆矩阵$\Sigma^{-1}$信息,实现差异化误差调整。与传统模型等权对待所有资产预测误差不同,DFL重点减少对风险贡献大且对决策影响显著的资产预测误差,而对部分“较差”资产的误差相对宽容。这种机制从数学上表现为预测误差梯度被$\Sigma^{-1}$扭曲调整。
  • 实验证明,这种调节导致了更接近最优组合权重的投资决策,且在多组风险厌恶参数$\lambda$及DFL权重参数$\alpha$下均表现优异,尤其在中高$\alpha$值时,预测排序相关性大幅提升,投资绩效随之改善。
  • 从预测性能视角看,DFL强调资产收益预测的排序效果超越严格的数值精度(MSE),这可以解释MSE在纯DFL训练时异常升高但投资表现仍优的现象。
  • 局限与未来方向:研究现阶段局限于基础MVO模型和样本协方差估计,未来拓展到其他风险模型(如CVaR)、协方差估计不确定性、模型结构多样化及更大规模资产池,才有望提出更具实践指导价值的策略。


综上,本文为理解和利用DFL优化金融资产收益预测模型提供了系统且深入的解析,推动了连接机器学习预测与投资组合优化的研究前沿,具有重要理论和实务意义。[page::0-6]

---

附:关键图表
  • 图1:DFL训练流程示意图


  • 表1:不同$\lambda$与$\alpha$下NDQ、MVO Loss、MSE Loss对比

(详见上述分析)
  • 图2:不同$\lambda$与$\alpha$下Sharpe比率与累计回报箱线图


  • 图3:不同$\lambda$与$\alpha$下收益真实值与预测值相关性



---

以上为本报告的详细结构化解析与深度解读。

报告