`

A deep primal-dual BSDE method for optimal stopping problems

创建于 更新于

摘要

本报告提出了一种基于停止时间迭代的深度原始-对偶BSDE框架,通过神经网络子网参数化续期价值及其空间梯度,设计低方差随机梯度的损失函数,实现最优停止问题的高效求解。该方法无需嵌套蒙特卡洛即可精准计算对偶上界,并通过多维美式期权定价实验验证了其在高维情形下的可扩展性和精确性 [page::0][page::1][page::3][page::4][page::5][page::6][page::7][page::10][page::15]

速读内容

  • 提出基于停止时间迭代的深度原始-对偶BSDE方法解决最优停止问题[page::0][page::1]:

- 设计包含空间梯度和martingale项的损失函数$\mathcal{L}^{\mathrm{bsde}}$,用于联合训练续期价值网络和其梯度网络。
- martingale项有效降低随机梯度的方差,促进神经网络训练收敛。
  • 方法优势与创新[page::1][page::4]:

- 利用空间梯度网络直接近似Doob martingale,无需嵌套蒙特卡洛,从而高效计算对偶上界,具有严格的上界性质。
- 比传统的神经网络模拟Longstaff-Schwartz方法$\mathcal{L}^{\mathrm{ls}}$损失的随机梯度方差显著减小。
  • 网络结构及训练策略[page::5]:

- 采用两组Feedforward神经网络分别拟合续期价值$\mathcal{C}{k,\theta}$和其梯度$\mathcal{G}{k,\theta}$。
- 采用ReLU激活及batch normalization,使用Adam优化器分步训练,最后层输出尺寸分别为1和维度$d$。
- 训练时增添对应的奖励函数特征输入提升性能,并用逐步初始化策略改善训练稳定性。
  • 下界和上界估计方法[page::6][page::7]:

- 通过训练好的续期价值网络迭代更新停止时刻,估计下界并用独立样本路径进行无偏蒙特卡洛估计。
- 通过空间梯度网络构造近似Doob martingale,实现不依赖嵌套采样的对偶上界估计。
- 采用细化时间网格进一步提升martingale估计精度。
  • 偏差分析[page::8][page::9]:

- 停止时间迭代方案对续期价值的估计天然偏低(低估),相比之下价值迭代方案偏高(高估)。
- 该低偏差性质使本方法在停止区域的判别上更为稳健和准确,避免了反射BSDE和价值迭代方法中出现的数值难题。
  • 实验验证[page::10][page::11][page::12][page::13][page::14][page::15]:

- 在多资产几何篮子美式期权(最高200维)、美式价差期权、Heston模型下的Bermudan看跌期权及Bermudan最大看涨期权等多个实例中展示方法有效性。
- 与经典方法对比,训练收敛稳定,下界和上界差距小,保证估计的可靠性。
- 利用空间梯度网络获得了期权delta对冲比率,准确拟合理论值,验证了梯度网络的实用性和准确性。


  • 表1:多维几何篮子美式看涨期权定价结果展示训练时间、上下界和置信区间[page::11]


| d | j | exact | training time | lower bound | upper bound |
|-----|-----|--------|---------------|-----------------------|-----------------------|
| 3 | 100 | 10.7192| 384s | 10.7111 (±0.0211) | 10.7984 (±0.0047) |
| 20 | 100 | 10.0333| 515s | 10.0057 (±0.0195) | 10.1341 (±0.0050) |
| 100 | 100 | 9.9352 | 783s | 9.9058 (±0.0187) | 10.1365 (±0.0073) |
| 200 | 100 | 9.9229 | 706s | 9.9037 (±0.0270) | 10.1556 (±0.0092) |
  • 表3:5维美式价差篮子期权估计下界和参考结果比较 [page::13][page::14]


| d | lower bound | upper bound | [5] | [28] |
|---|---------------------|-------------------|---------------------|----------|
| 5 | 11.7981 (±0.0068) | (未给出) | 11.8665 (±0.0056) | 11.797 |
  • 表4:Heston模型下Bermudan看跌期权定价结果与COS方法对比,均带95%置信区间 [page::14]


| s0 | lower bound | upper bound | COS [14] |
|----|---------------------|---------------------|-----------|
| 9 | 1.1058 (±0.0007) | 1.1084 (±0.0002) | 1.1061 |
| 10 | 0.5181 (±0.0006) | 0.5230 (±0.0002) | 0.5186 |
| 11 | 0.2123 (±0.0004) | 0.2177 (±0.0002) | 0.2131 |
  • 表5:Bermudan max-call期权的多维定价结果与文献[9]对比,结果含置信区间 [page::14][page::15]


| d | j | lower bound | upper bound | [9] |
|----|-----|----------------------|---------------------|-----------|
| 2 | 90 | 8.2420 (±0.0151) | 8.3420 (±0.0029) | - |
| 2 | 100 | 14.1969 (±0.0188) | 14.2729 (±0.0031) | - |
| 2 | 110 | 21.7661 (±0.0225) | 21.8086 (±0.0034) | - |
| 5 | 90 | 16.9405 (±0.0212) | 17.2241 (±0.0076) | 16.8896 |
| 5 | 100 | 26.5927 (±0.0248) | 26.8561 (±0.0083) | 26.4876 |
| 5 | 110 | 37.2724 (±0.0288) | 37.5932 (±0.0092) | 37.0996 |
| 10 | 90 | 26.5888 (±0.0242) | 27.5517 (±0.0215) | - |
| 10 | 100 | 38.7794 (±0.0278) | 39.9960 (±0.0262) | - |
| 10 | 110 | 51.3909 (±0.0310) | 52.3989 (±0.0242) | - |

深度阅读

报告详尽分析 — 《A deep primal-dual BSDE method for optimal stopping problems》



---

1. 元数据与概览


  • 标题:《A deep primal-dual BSDE method for optimal stopping problems》

- 作者:Jiefei Yang、Guanglian Li
  • 机构:香港大学(文中有支持信息)

- 发布日期:2024年9月12日
  • 主题:基于深度学习与BSDE(Backward Stochastic Differential Equation,反向随机微分方程)技术解决最优停止问题,重点应用于美式期权定价。


核心论点



本文提出一种全新的深度原始-对偶BSDE框架,通过停止时间迭代的方法解决高维最优停止问题。该方法设计一个新的损失函数,用以学习条件期望,并引入额外的马尔可夫鞅项以降低梯度方差,从而提高训练效率及值函数逼近的准确性。同时,基于Doob-Meyer分解,该方法能够有效计算目标函数的真实上界,且避免传统嵌套蒙特卡洛带来的高昂计算成本。实验聚焦于美式期权定价,进一步展示空间梯度网络直接输出对冲比率。

作者试图传递的关键信息包括:
  • 提出一个深度学习方法,实现高维最优停止问题的可扩展、高效求解;

- 设计的损失函数结构有效降低梯度方差,促进神经网络训练;
  • 通过停止时间迭代策略获得偏低的下界,带来更稳定的停止决策;

- 利用马尔可夫鞅近似机会,计算不含嵌套蒙特卡洛的真实上界,提高计算效率;
  • 在多个期权定价任务中展示方法的有效性。


---

2. 逐节深度解读



2.1 引言



关键论点
  • 研究形式为 $\sup{\tau \leq T} \mathbb{E}[g(\tau, X\tau)]$ 的最优停止问题,其中 $Xt$ 是$d$维伊藤扩散过程,$\tau$为停止时间,$g$为奖励函数。

- 该问题在金融中应用广泛,如美式和伯穆达期权的定价和对冲。
  • 现有求解方法多依赖自由边界PDE、反射BSDE等,但高维时计算复杂度呈指数级增长(维度诅咒)。

- 近年来深度学习方法在该领域表现突出,但大多依赖值迭代(Dynamic Programming)的函数逼近,存在逼近误差累积问题。
  • 本文目标开发一种高效、可靠的深度学习算法,通过计算真实的下界和上界来保证估计的可靠性,并通过停止时间迭代代替经典的值迭代减缓误差累积。


支撑理由及假设
  • 传统值迭代容易出现误差累积,[38, 9]有相应实验和理论支持。

- 停止时间迭代的优势在于直接学习期望的奖励函数,避免了值函数的误差传播。
  • 马尔可夫鞅方法提供了自然的对偶上界。


---

2.2 贡献总结(Section 1, Page 1)



贡献点具体说明
  1. 损失函数设计创新:构造基于BSDE的损失函数$\mathcal{L}^{\mathrm{bsde}}$同时训练继续值函数和其空间梯度的两个子网络,加入马尔可夫鞅部分,区别于传统纯回归损失,称为深度原始-对偶BSDE方法。
  2. 方差减少优点:马尔可夫鞅部分降低了随机梯度的方差,有助于神经网络训练梯度的稳定性与收敛性,超越传统Longstaff-Schwartz方法的无方差控制变体。
  3. 非嵌套计算真实上界:利用空间梯度网络直接近似Doob鞅,避免嵌套蒙特卡洛模拟导致的计算负担,尤其在时间步长多时优势显著。


---

2.3 相关工作与方法论(Section 2)


  • 与已有深度BSDE方法的区别:传统前向BSDE方法不能直接处理最优停止问题的反射特性;本文利用停止时间迭代避免依赖反射BSDE,增强鲁棒性和上下界计算的准确性。
  • 多方法对比:结合了收益迭代机制及可控马尔可夫鞅解的对偶方法,避免先验回归计算鞅的任务,计算复杂度较低。
  • 与强化学习的联系:采用变种时序差分(temporal difference)方法进行条件期望估计,但优化目标和问题结构有显著差异。


---

2.4 算法推导与新损失函数(Section 2)


  • 模型引入:离散时间格点下的最优停止问题的继续值函数$c(t, x) = \mathbb{E}[g(\tau{k+1}, X{\tau{k+1}}) | Xt = x]$满足线性PDE和相应BSDE。
  • 线性BSDE表达式:利用Ito公式推导得到


$$
c(t, X
t) = g(\tau{k+1}, X{\tau{k+1}}) - \intt^{\tau{k+1}} \nablax c(s, Xs)^\top \sigma(Xs) dWs,
$$

显示继续值可被马尔可夫鞅德布朗运动积分表示。
  • 损失函数说明


$$
\mathcal{L}^{\mathrm{bsde}} = \mathbb{E}\left[\left(\mathcal{C}
{k, \theta}(Xk) - g(\tau{k+1}, X{\tau{k+1}}) + \sum{j=k}^{\tau{k+1}/\Delta t - 1} \mathcal{G}{j,\theta}(Xj)^\top \sigma(Xj) \Delta Wj \right)^2 \right],
$$

其中$\mathcal{C}{k, \theta}$和$\mathcal{G}{k, \theta}$分别为值函数及其梯度网络,$\Delta Wj$为布朗增量。
  • 与传统损失对比:传统方法仅以平方误差学习继续值$\mathcal{L}^{\mathrm{ls}} = \mathbb{E}[(\mathcal{C}{k, \theta}(Xk) - g(\tau{k+1}, X{\tau{k+1}}))^2]$。


- 传统损失存在梯度方差大,难以收敛问题;
- 新损失通过引入马尔可夫鞅项,梯度期望零且方差降低(Proposition 1),确保优化更加稳定高效。

---

2.5 神经网络结构与训练(Section 2.2、Algorithm 1)


  • 网络结构


- 两个前馈网络分别拟合继续值与其梯度,输出维度分别为1和$d$。
- 每层采用ReLU激活,参数逐层线性映射。
- 加入激励特征$\phi(tk, \cdot)$(与期权给予的奖励相关)提升训练效率,仅继续值子网络使用此特征。
  • 训练策略


- 每时间步倒序训练,$\mathcal{C}
{k+1, \theta}$与$\mathcal{G}{k+1, \theta}$用于初始参数,传递性好;
- 在临近期权到期时加倍训练epoch解决非光滑边界对梯度学习的挑战;
- 参数通过Adam优化器与小批量随机梯度下降法更新。

网络结构示意

---

2.6 下界与上界计算方法(Section 3)


  • 下界


- 通过训练的继续值网络$\mathcal{C}
{k, \theta}$迭代计算子最优停止时间$\hat{\tau}k$,形成下界估计
$$
L = \mathbb{E}[g(\hat{\tau}
0, X{\hat{\tau}0})] \leq V0.
$$
- 保证用独立样本估计实现无偏估计,参见Algorithm 2。
  • 上界


- 基于对偶理论及Doob-Meyer分解,$V
k$为支配奖励过程的最小超鞅,分解为$Vk = V0 + Mk - Ak$。
- 利用任意鞅$\tilde{M}$获得上界
$$
V0 \leq \mathbb{E}\Big[\max{k} (g(tk, Xk) - \tilde{M}k) \Big].
$$
- 若$\tilde{M} = M$为Doob马尔可夫鞅,上界为真实值,无偏;
- 推导得出$M
k$的鞅表示形式:$Mk = \int0^{tk} \nablax c(s, Xs)^\top \sigma(Xs) dWs$;
- 利用训练的梯度子网络$\mathcal{G}
{k, \theta}$直接逼近,从而实现无嵌套蒙特卡洛的有效上界计算(Algorithm 3)。
- 使用细分时间格点提升鞅逼近精度。

---

2.7 偏差分析(Section 4)


  • 价值迭代(Value Iteration)基于条件期望计算继续值,易产生高偏差,即估计值偏大(Proposition 3),且训练难以稳定。

- 停止时间迭代(Stopping Time Iteration)则产生低偏差,估计偏小(Proposition 4),但因价值迭代的高偏差而表现稳定[38]。
  • 反向反射BSDE方法为价值迭代类算法,故存在价值迭代的高偏差问题。

- 具体数值示例(20维几何篮子看涨期权)展示了两者在停止区附近的逼近差异,停止时间迭代可更稳健地识别正确停止边界。
  • 该低偏差特性令提出的方法稳定性更强,在小步长时仍可有效判定停止区域。


---

2.8 实验内容与结果(Section 5)


  • 5.1 美式几何篮子看涨期权


- 维度最多200,均匀时间步50步,基于多资产Black-Scholes模型模拟;
- 训练时间随维度增大增长,batch-size适当调整;
- 计算得到的上下界均逼近参考经典网格解及文献结果,显示高准确性;
- stopping region(停止区域)划分准确,能够有效识别停止/继续区域(对应图3);
- 利用梯度子网络直接估计Delta对冲比例,曲线与低维准确解吻合良好,验证网络梯度输出的有效性。
  • 5.2 美式“Strangle Spread”篮子期权


- 5维期权,已知参数配置;
- 结果显示提出方法下界优于已有文献,下界和上界差距较小,提升了精度与可靠性。
  • 5.3 Heston模型下的Bermudan看跌期权


- 2维模型,条件标准参数;
- 与COS方法结果接近,显示稳定性;
- 强调深度方法扩展到高维多因素模型的优势。
  • 5.4 Bermudan max-call期权


- 不同维度(2、5、10)和初始价场景;
- 用100个行权时点,逼近美式期权;
- 方法下界优于文献方法,显示准确度提升。
  • 训练稳定性与超参数


- 超参数详见附录B,训练采用Xavier初始化,batch normalization,学习率衰减;
- 说明训练过程稳定。

---

3. 图表深度解读



图1 — 网络结构示意(Page 5)


  • 展示了时间步$tk$的神经网络架构:包括值子网络$\mathcal{C}{k, \theta}$和梯度子网络$\mathcal{G}{k, \theta}$,分别接受状态$Xk$输入,输出继续值和梯度。

- 梯度输出与布朗增量$\Delta Wk$相乘生成马尔可夫鞅增量$\Delta Mk$。
  • $\Delta Mk$及后续时间步增量在损失函数中引入以降方差。

- 该结构允许新损失函数中的BSDE部分直接实现,体现原始-对偶算法核心。

图2 — 20维几何篮子期权下继续值与立即奖励比较(Page 11)


  • 横轴为20维资产价格的几何平均,纵轴为值。

- 红点为神经网络训练得到的继续值$\mathcal{C}
{k,\theta}(Xk)$,蓝线为即时奖励$g(tk, X_k)$。
  • 结果显示继续值在停止区接近奖励函数,说明网络准确捕捉边界。

- 插图放大区间更清晰地对停止边界细节。
  • 该图佐证低偏差属性以及停止时间迭代的实际效果。


继续值与立即奖励比较

图3 — 不同维度下停止/继续区域分类(Page 12)


  • 横轴时间,纵轴为几何平均价格,颜色标记样本点停止(蓝)或继续(红)。

- 黑色点为精确停止边界。
  • 20维与100维均显示样本点分类有效,其界面接近真实边界,说明网络在高维度上仍有效划分空间。


停止与继续区域分类

图4 — 投影delta值比较(Page 13)


  • 横轴为几何平均资产价格,纵轴为delta敏感度。

- 红点为网络训练获得的梯度子网络投影结果,蓝点为奖励函数梯度,黑线为参考精确解。
  • 图4(a)、(b)分别对应20维和100维情况。

- 展示网络能够捕捉复杂且非光滑的delta曲线,体现对冲策略计算能力强。

Delta对比

---

4. 估值分析


  • 本文并无传统金融资产估值(如DCF)方法,而聚焦于最优停止问题价值得到的上下界估计。

- 下界通过神经网络计算的近似停止时间,模拟求取样本均值实现。
  • 上界利用Doob-Meyer分解中的马尔可夫鞅展开式进行近似;该鞅以梯度网络输出为基础,形成积分表达。

- 通过时间细分提高鞅近似精度,避免嵌套蒙特卡洛,显著提升计算效率。
  • 损失函数设计关键在于提升训练稳定性与获取上下界的紧密度。


---

5. 风险因素评估



报告较少直接描述风险因素,但通过分析可推断如下:
  1. 时间离散误差:模型通过时间离散近似连续最优停止,时间步长$\Delta t$过大将影响精度。
  2. 神经网络逼近能力及训练风险:网络结构简单(2层FNN),对于某些复杂函数(如不连续或尖峰函数)拟合可能不足;训练收敛依赖于梯度方差控制。
  3. 偏差特性


- 价值迭代偏高风险,易误判停止区域;
- 停止时间迭代偏低但较稳定,可能过于保守;

需要平衡偏差与方差体现风险。
  1. 模型假设的限制


- 伊藤扩散过程、Markov性质、奖励函数正性。
- 停止时间连续性假设,在实际某些金融产品可能不满足。
  1. 样本独立性风险:下界估计须使用与训练独立的样本,否则存在偏差。
  2. 计算资源限制


- 高维度训练内存限制,导致批量大小调整。
- 计算时间随维度快速增加。

缓解策略主要包括合适的初始化、学习率衰减及梯度方差减少设计。

---

6. 批判性视角与细微差别


  • 偏见识别


- 作者对神经网络的逼近能力基本假设是充分的,但实际高维复杂函数存在困难,网络参数和架构选择可能影响泛化能力。
- 低偏差的停止时间迭代虽然稳定,但存在可能的保守估计,理论上精度会被限制。
  • 内在矛盾与讨论


- 文中指出反射BSDE对应高偏差价值迭代,且训练难度大,这与某些文献对其收敛性的积极评估形成对比,提示依赖具体实现细节和模型。
- 对算法复杂性的讨论主要集中在减少计算量,未明确涉及训练时间和模型规模的扩展极限。
  • 训练细节


- 仅使用相对基础的两层FNN,未来更复杂网络(如卷积、循环、变换器)或许可提升性能。
- 训练分享梯度网络与继续值网络,可能引入耦合误差。

---

7. 结论性综合



本文系统提出了一种基于深度原始-对偶BSDE的深度学习框架来求解最优停止问题,实质是一种结合停止时间迭代的深度神经网络方法,体现了以下深刻贡献和发现:
  • 深度BSDE新损失:引入马尔可夫鞅部分有效减少梯度方差,大幅提升训练稳定性和模型精度。

- 停止时间迭代优势:相较传统值迭代避免高偏差,带来更稳定、合理的停止策略识别。
  • 上下界估计:训练网络同时输出继续值及梯度,借助Doob-Meyer分解获得精确度高且计算效率高的上下界,尤其避免了嵌套蒙特卡洛的高昂成本。

- 多样化实证:在多种经典及高维期权定价任务中的表现优异,包含最高达200维,结果在多个方向优于或接近现有文献基准,尤其在对冲Delta估计方面精准可信。

报告中关键表格(Tables 1-5)均显示提出方法生成的上下界置信区间较窄,下界与既有文献方法相比更低偏差,上界非嵌套估计带来显著效率优势。图表(Figures 1-4)辅助直观理解网络结构、停止区域划分及对冲能力,验证了理论设计的实用价值。

本文同时指出未来可往更复杂的网络结构扩展,及拓展至更具挑战的非平滑奖励函数,为高维金融衍生产品的定价与对冲提供了新范式。

---

溯源标注


  • 报告核心创新与方法介绍详见Page 0-3,共计贡献点与算法细节 [page::0, page::1, page::2, page::3]

- 偏差分析及价值迭代对比详述于Page 8-10 [page::8, page::9, page::10]
  • 实验设计与结果详见Page 10-14,表1-5及图2-4说明 [page::10, page::11, page::12, page::13, page::14]

- 证明部分技术细节见Page 19-20 [page::19, page::20]
  • 超参数和训练细节见Page 21 [page::21]


---

综合来看,本文在深度学习解决最优停止问题中,通过原创性的损失函数设计、停止时间迭代及马尔可夫鞅近似,有效平衡了模型的稳定性、准确性与计算效率,为高维金融标的美式期权定价等应用场景提供了强有力工具。

报告