DEEP LEARNING METHODS FOR S SHAPED UTILITY MAXIMISATION WITH A RANDOM REFERENCE POINT
创建于 更新于
摘要
本报告针对具有随机基准点的S型效用函数的投资组合优化问题,提出并比较了基于深度学习的多种数值算法,涵盖Hamilton–Jacobi–Bellman方程和拉格朗日对偶方法。研究表明,在完整与不完整市场中,采用效用函数的凹包络能够有效规避非凸性问题,通过深度物理信息神经网络(PINN)与随机最大值原理方法获得准确数值解,验证了算法的可行性和鲁棒性 [page::0][page::1][page::5][page::14][page::16]
速读内容
- 研究背景与问题定义 [page::0][page::2]
- 研究对象为S型效用函数与随机基准过程下的财富差异最大化,涉及非凸优化难题。
- 资产价格模型中包含风险无套利资产和几何布朗运动,投资比例$\pi$为控制变量,效用函数$U$由两个严格递增、严格凹函数拼接形成S型结构。
- 凹包络方法及凸对偶理论 [page::2][page::3][page::5]
- 通过定义效用的凹包络$\bar{U}$和Fenchel–Legendre变换,得到双重价值函数,化非凸优化为凸优化。
- 完整市场中可证明最优财富过程集中在效用凹包络与原效用函数相等的区域,消除对偶缺口,实现凸问题的有效求解。
- 可扩展幂效用的降维与PINN数值算法 [page::3][page::4][page::7][page::8]
- 利用状态变量标准化$Zt = Xt / Rt$降维,并引入变号布朗运动测度$\mathbb{Q}$,对应HJB非线性偏微分方程求解。
- 构建基于多层前馈神经网络的深度物理信息神经网络(PINN),以PDE残差、边界条件和终点条件为损失,迭代训练逼近价值函数。
- 对偶问题与最优控制表达 [page::5][page::6][page::7]
- 关于双重变量$Yt$的动态对偶控制问题给出明确随机微分方程结构,利用HJB方程推导最优双重控制$\xi^*$。
- 完整市场下,双重价值函数可显式表达,凭借随机变量的正态分布函数计算,实现精准数值计算与最优状态过程刻画。
- 一般效用函数与随机最大值原理(SMP)方法 [page::9][page::10][page::11]
- 采用动态规划与SMP分别构建HJB偏微分方程及伴随BSDE,刻画最优控制,采用双神经网络分别拟合控制和伴随过程。
- 通过蒙特卡洛模拟及梯度下降训练神经网络,实现对非线性、高维PDE和BSDE的高效求解。
- 数值实验与结果验证 [page::14][page::15][page::16]
- 在完整市场$(\rho=1)$和不完整市场$(\rho=0)$情形进行实验,对比Primal PINN、Dual PINN及SMP方法,展示控制策略和价值函数的拟合准确性。
- 发现非凸方法在财富显著低于基准时收敛效果较差,凹包络方法和对偶方法结果高度一致,验证了凹包络原则适用性。
- 算法具备较快收敛速度(1~2分钟),在无GPU的普通CPU设备上也能稳定运行。


- 深度学习量化策略生成核心步骤 [page::7][page::8][page::10]
- PINN方法利用神经网络表示PDE解,定义基于PDE残差与边界/终点条件的损失函数,通过随机采样点迭代优化模型参数。
- SMP方法构建对偶BSDE,采用两个神经网络分别学习控制变量和伴随过程,结合样本路径进行梯度更新,输出近似最优策略。
- 双方法均可适用于标的池内任意效用函数和状态维度,通过神经网络强表达能力克服传统数值方法维数灾难。
- 算法与理论边界 [page::16]
- 目前深度神经网络方法理论收敛性分析尚欠缺,尤其针对非线性PDE和非凸优化问题。
- 凹包络原则证明主要集中于完整市场,数值结果提示在部分不完整市场情况下也可适用,但需进一步数学论证。
深度阅读
深度分析报告:DEEP LEARNING METHODS FOR S SHAPED UTILITY MAXIMISATION WITH A RANDOM REFERENCE POINT
---
1. 元数据与概览
- 标题: DEEP LEARNING METHODS FOR S SHAPED UTILITY MAXIMISATION WITH A RANDOM REFERENCE POINT
- 作者: Ashley Davey, Harry Zheng
- 所属机构: Imperial College London 数学系
- 主题: 研究S形效用函数在投资组合优化问题中,尤其是以随机参考基准作为比较标准时的优化问题,重点是非凹效用最大化问题的深度学习求解方法。
- 主要内容概述:
- 本文考察了一个特殊的投资组合优化问题,投资者的效用函数为S形效用,应用于终端财富与随机基准资产差额的函数。
- 提出了解决此非凹优化问题的多种数值方法,包括基于深度学习的Hamilton-Jacobi-Bellman(HJB)方程求解、对偶控制方法以及结合随机最大值原理(SMP)的伴随方程。
- 对比分析了该非凹问题与其对应的“凹包络”问题的解决方案,涉及完全市场与不完全市场情形。
- 通过对幂效用和对数效用的数值实验,验证了所提算法的有效性和准确度。
- 关键词: S形效用最大化,随机参考点,不完全市场,效用凹包络,对偶控制,深度神经网络。
- 2020数学分类: 93E20(最优控制),91G80(金融数学),90C46(最优化方法),49M29(数值方法)。
该报告的主要信息传达是:在处理随机且可能不完全可复制的参考基准情况下,针对非凹S形效用优化问题,结合深度学习和现代随机控制理论,构建有效且实用的算法框架解决该问题,并验证了深度学习方法在该复杂背景下的可行性与鲁棒性[page::0,1]。
---
2. 逐节深度解读
2.1 引言(Section 1)
- 本节引入了标的为财富与随机基准差值的S形效用最大化问题。S形效用函数在正区间凸、负区间凹,导致价值函数非凹、非标准,难以求解。
- 通过引入基准的随机性(如与市场指数相关,或含有不可交易因素),该问题体现更现实的投资目标和市场不完全性。
- 传统效用最大化的理论基础包括动态规划原理(DPP)、随机最大值原理(SMP)、HJB方程和伴随BSDE,文中指出这些理论可在一定条件下延展至随机效用问题。
- 关键贡献在于通过深度学习方法解决涉及非凹随机效用的HJB方程及其对偶问题,以及伴随BSDE的求解,突破传统数值方法的维度诅咒。
- 本节明确了后续章节结构:问题设定(Section 2),幂效用的特化与降维(Section 3),通用效用下的PDE与SMP方法(Section 4),数值结果(Section 5),结论(Section 6)[page::0,1]。
2.2 问题设定(Section 2)
- 模型假设:
- 时间区间[0,T]。
- 风险无风险资产价格$S^0$定义为$ dSt^0 = \alpha St^0 dt $。
- 风险资产价格$S$满足几何布朗运动$ dSt = \mu St dt + \sigma St dWt $。
- 投资者以比例$\pit$投资于风险资产,剩余资金投资于无风险资产,财富$Xt$动态随投资变化:
$$
dXt = (\alpha Xt + \pit Xt \theta \sigma) dt + Xt \pit \sigma dWt
$$
其中$\theta=(\mu-\alpha)/\sigma$为市场价格风险。
- 随机基准过程$Rt$,满足:
$$
dRt = a Rt dt + b Rt dWt^R
$$
其中$W$和$W^R$两布朗运动相关系数$\rho$。
- 效用函数定义:
$$
U(z) = \begin{cases}
U1(z), & z \geq 0, \\
-U2(-z), & z < 0,
\end{cases}
$$
$U1, U2$均为严格递增、严格凹函数,连续可导,且满足$U1(0)=U2(0)=0$。
- 目标是最大化期望效用:
$$
\nu(t,x,r) = \sup{\pi} \mathbb{E}[U(XT - RT) | Xt=x, Rt=r]
$$
- 关键难点是效用的非凹性,实际求解转向对$U$取其凹包络$\bar{U}$,并通过Fenchel-Legendre变换得到对偶效用$\tilde{U}$,进而定义对应的凹包络问题及对偶问题。
- 该部分还列出了核心理论结果——完全市场时($\rho = \pm 1$),凹包络问题与原问题价值函数等价,且最优终端财富可显式表示为对偶变量的梯度形式,解决了非凹性问题的结构特征分析[page::2,3]。
2.3 幂效用的PINN求解(Section 3)
- 特殊效用选取:
$$
U(z) = \begin{cases}
z^p, & z \ge 0 \\
-K |z|^p, & z < 0
\end{cases}
$$
$p \in (0,1)$, $K \ge 0$
- 通过定义$Z
- 导出$Zt$的SDE以及其HJB方程,明显注意到非线性和非凹性存在。
- 介绍了对偶问题的动态对偶控制设定,包括对偶过程$Y
- 详细推导了原问题与对偶问题的HJB方程以及最优控制的候选表达式。特别注意了$|\rho|=1$时对偶问题显著简化,显式计算对偶价值函数。
- 引入物理信息神经网络(PINN)作为PDE近似求解器,结构用多层全连接神经网络替代函数,设计损失函数包含PDE残差和边界条件,以梯度下降迭代优化网络参数,实现对复杂非线性HJB方程的数值求解。
- 针对对偶和原问题价值函数及控制提出数值计算方法,分析了完全市场下无对偶缺口且双向可微的性质,从而实现基于深度学习的价值函数及最优策略逼近[page::3,4,5,6,7,8,9]。
2.4 通用效用及SMP方法(Section 4)
- 回归原问题设定,效用函数不具缩放性且维度为状态变量二维$(x,r)$。
- 针对原问题、凹包络问题及对偶问题,构造对应的HJB PDE(二维状态)。
- 介绍随机最大值原理(SMP)求解方案,适应于完全市场,通过伴随BSDE定义最优性判据。
- 结合两个神经网络近似控制策略和伴随过程初始条件,设计样本估计损失函数,包括终端约束与期望效用最大化。
- 该方法能绕开强Markovian假设,面向非线性伴随方程,在多个时间步的动态演化中优化控制。
- 采用蒙特卡洛模拟结合深度学习实现求解,进一步拓展了S形效用优化问题数值方法的适用范围[page::9,10,11,12]。
2.5 数值实例与方法对比(Section 5)
- 设置参数示例,涵盖市场利率、波动率、时间、效用幂指数等。
- 应用多种方法(缩放问题PINN,原问题PINN,凹包络PINN,对偶PINN,SMP深度学习)求解。
- 完全市场($\rho=1$)幂效用:
- 图1显示了策略控制与价值函数与解析解的逼近效果,结果表现良好,尤其凹包络方法逼近准确。近终端时期望财富控制呈现典型的“跳跃”形态,与对效用凹包络的理想接近。
- 分别在不同$(x,r)$组合下给出多个方法的价值函数估计,数值接近,验证方法有效。
- 不完全市场($\rho=0$)幂效用:
- 无解析解,但数值结果表明凹包络与对偶PINN方法高度一致,显示凹包络原理可能依然成立。
- 其他方法数值稳定,控制函数结构类似完全市场,展现算法的广泛适用性。
- 一般效用函数:
- 选择幂根及对数混合模型,验证多个方法协同工作。
- 与幂效用类似,凹包络方法与对偶方法数值吻合,非凹PINN在$x
- 提供了详细代码地址链接,方便重现。
- 该节大量表格展示价值函数估计,支持各类算法间数值对比,显示出深度学习方法在复杂市场设置和非标准效用函数中的强大适用性[page::12,13,14,15,16]。
---
3. 重要图表深度解读
图1(page::14)
- 描述: 绘制了在完全市场$\rho=1$,基准$r=1$条件下,期初$t=0$状态$x$与相应控制(投资金额$\Pi=\pi X$)及价值函数$\nu$的关系图。
- 展示内容: 横坐标为本金$x$,纵坐标左图为投资控件$\Pi$,右图为价值函数$\nu$,曲线分别代表五种方法结果:原始凹包络Primal PINN $\bar{U}$、非凹Primal PINN $U$、对偶PINN、SMP和解析解。
- 数据解读:
- 价值函数曲线高度重合,各方法数值非常接近解析解,数值解有效。
- 控制函数表现出“山谷”结构:当财富接近基准附近波动时,出现风险厌恶与风险偏好的复杂权衡,即控制函数非单调。
- 非凹Primal PINN波动较大,说明二阶导数估计误差影响控制计算。
- 随时间临近终端,控制在区域$(0,r)$趋于无界,匹配理论预测中财富须跳转至0或较大值以匹配凹包络效用特征。
- 与文本联系:
- 图形展示精确地验证了理论预期中凹包络原理和最优控制策略的结构。
- 对数值稳定性和控制波动的分析反映了深度学习方法对复杂非线性问题逼近的局限与优势。
- 局限性:
- 非凹效用对应的价值函数近端可能不可微,导致数值震荡。
- 控制函数依赖于二阶微分,数值敏感度高[page::14]。
表格1和2(page::14)
- 内容:对应不同初始财富$x$和基准$r$,比较了多种方法估计的价值函数$\nu$数值。
- 分析:
- 数值结果在不同方法中高度一致,凸显算法稳定性。
- 非凹方法在财富远低于参考点时表现较差,数值偏差较大,验证了报告批判中关于非凹方法不足的分析。
- 意义:
- 表明缩放方法有效简化问题复杂度。
- 凹包络与对偶方法数值更可靠,建议实际应用中优先采纳。
图2及表3、4(page::15-16)
- 内容:不完全市场$\rho=0$条件下控制与价值函数图示及数值。
- 分析:
- 控制函数形态与完全市场相似,呈现相同的非线性风险偏好结构。
- 凹包络和对偶方法数值依旧高度吻合,表明凹包络法在多维随机基准且市场不完全情形下的有效性。
- SMP方法及非凹方法差异较大,反映不完全市场中最优性理论应用的复杂性。
- 意义:
- 深度学习框架成功适配不完全市场,更贴近真实金融环境。
- 凹包络原理可能具备更广泛的适用性,值得理论后续研究强化。
表5(page::16)
- 内容:一般效用场景下多方法价值函数比较。
- 解读:
- 依然显示凹包络与对偶方案的近似一致,非凹方案在低于基准财富区域表现不佳。
- SMP方法数值略逊于最佳结果,或因模拟及训练误差。
- 体现:
- 算法在多样效用函数下表现稳定。
- 进一步确认凹包络方案数值优势。
---
4. 估值分析
- 报告核心估值对象为价值函数$\nu(t,x,r)$,代表在指定时间和状态下的最优效用。
- 方法论:
- 直接求解非线性HJB方程,结合深度神经网络近似函数,采用PINN降低维度并兼顾边界。
- 对偶问题通过Fenchel-Legendre变换,转化为对偶控制问题,其HJB方程体现为另一维度变量的非线性PDE,再用深度方法求解。
- SMP法则为基于伴随BSDE和最优性条件,利用深度学习同时近似最优控制和伴随过程。
- 关键输入假设:
- 市场动态参数($\alpha,\mu,\sigma,a,b,\rho$)、投资者效用参数($p,K$等)及基准初始状态。
- 凹包络函数满足条件确保原问题和凹包络存在等价性。
- 全市场时对偶过程是几何布朗运动,可显式计算其期望。
- 输出的估值结果通过模拟及数值计算方法验证,三种方法间的值函数相互吻合且与理论解基本持平,说明估值结果较为坚实。[page::3-6, 12-13, 15-16]
---
5. 风险因素评估
报告中隐含风险如下:
- 模型与方法的适用假设风险:
- 凹包络原则依赖于一定完全性和无控制约束条件,市场不完全时原则是否成立无定论,存在潜在对偶缺口。
- 深度学习数值方法风险:
- 训练误差、过拟合及低样本质量带来估计偏差,尤其控制策略涉及高阶导数,数值不稳定。
- 终端效用非连续引入的性能波动,如非凹效用方法在小财富区间难以逼近。
- 市场模型简化风险:
- 资产价格模型仅含单一风险资产和标的,可能不充分反映实际复杂市场环境。
- 基准过程只有一种随机形式参数,受限于模型假设真实度。
- 策略实现风险:
- 理论上最优控制可能涉及极端投资仓位(趋于无穷),实际操作受限。
- 缓解策略:
- 报告暂无直接缓解方案,但通过多方法对比和数值验证降低模型风险。
- 建议未来引入更严谨的理论验证和实际策略约束。
- 潜在风险概率:
- 报告未明确量化风险概率,风险提示主要源自算法和模型结构假设,实务中需谨慎校验[page::1,6,13-16]。
---
6. 批判性视角与细微差别
- 效用函数的非凹结构导致数值解中的不连续性和波动性,尤其数值方法依赖于函数的可微性,而非凹效用处存在间断与奇点,影响控制策略求解稳定性。
- 凹包络原则及其适用性边界仍未经完全理论证明,特别是在不完全市场和控制约束下,存在对偶缺口和价值函数非凹现象,数值观察虽表明原则依然适用,但缺乏严格证明。
- 深度学习方法固有的黑盒性质和调参复杂度:虽然实现高效求解过程,但训练是否全局收敛无保障,易受初始化和超参影响。
- 依赖模拟的SMP方法在样本量及计算成本方面存在权衡,报告未深入探讨随机估计误差对策略稳定性的影响。
- 模型简化方面存在现实与理论的断层:单标的模型和单效用函数配置可能无法覆盖多资产、多风险因子的实际金融环境。
- 报告中数值结果表现不佳的区域(如$x \ll r$)未提供具体改进措施,提示该部分方法仍需完善。
- 报告没有对深度学习算法的收敛性做出理论保证,明确表示属于后续研究方向。
- 在对偶控制动态中参数选取与控制空间选择上的说明略显简略,读者需依赖相关文献了解细节。
整体来看,本文结合了数学严谨推导与前沿深度学习技术,克服传统数值方法的不足,但仍存在理论和数值实现间的平衡需要进一步摸索的空间[page::1,6,13,16]。
---
7. 结论性综合
本报告系统研究并解决了带有随机参考基准的S形效用最大化投资问题,聚焦于应对非凹性和随机性的挑战。核心成果和洞察包括:
- 提出并详细推导了基于深度学习的多种数值方案:包括HJB方程的PINN方法、对偶控制方程的深度求解、结合随机最大值原理(SMP)的伴随BSDE求解方案,覆盖了效用凹包络及非凹情况。
- 通过降维与风险中性测度变换,简化并高效地解决幂效用和更一般函数形式的价值函数问题,显著减低求解复杂度。
- 理论结果(如凹包络原则)在完全市场和部分实验不完全市场条件下得到数值支持,表明对偶策略与原始非凹问题价值函数趋于一致,验证了理论框架的合理性。
- 数值实验展示了各方法在价值函数估计和最优控制策略上的一致性和差异点,尤其详细展示了完全市场与不完全市场、幂效用与一般效用场景中的效果与适用性。
- 图表解析揭示了在财富接近随机参考基准区域投资策略的风险偏好复杂结构,反映出投资者为避免亏损与寻求超越参考的策略调整,吻合S形效用理论。
- 报告充分展示了深度学习数值方法在高维、复杂非线性金融优化问题中的可行性和效率优势,运行时间适中,不依赖GPU硬件,具备应用推广潜力。
- 不足之处在于理论收敛性未完备,非凹效用区域数值逼近稳定性存在挑战,以及模型较简化且未详述实际约束的影响,未来研究将着眼于理论完善及算法鲁棒性增强。
总体来说,作者团队成功将深度学习方法引入高阶随机控制领域,为非凹效用在具有随机参考标准的市场中的实用数值解法提供了重要而完整的框架。[page::0-17]
---
附:关键图表示例
图1:完全市场下控制与价值函数对比

图注:投资金额(控制变量$\Pi$)与状态$x$左图,价值函数$\nu$与状态$x$右图,均在$t=0$,完全市场$\rho=1$,基准$r=1$,幂效用情况下,各类深度方法结果与解析解的对比。
---
图2:不完全市场下控制与价值函数对比

图注:投资金额控制$\Pi$与价值函数$\nu$在不完全市场$\rho=0$下的数值表现,基准$r=1$,幂效用,显示深度学习方法依然有效。
---
总结
该研究通过结合深度学习、随机控制理论和金融效用函数优化,开拓了非凹效用最大化问题的数值解法领域,形成了理论与实践兼顾的前沿工作,为未来同类高复杂性金融优化问题的求解提供鲜活思路和工具。