`

A NEW ARCHITECTURE OF HIGH-ORDER DEEP NEURAL NETWORKS THAT LEARN MARTINGALES

创建于 更新于

摘要

本文提出一种基于高阶弱逼近算法的深度神经网络架构,用于高效学习随机微分方程中的鞅过程,特别适用于金融衍生品定价。核心创新在于将显式Runge–Kutta型高阶弱逼近方法整合至神经网络,通过迭代组合和线性运算实现SDE的近似。数值实验表明,所提架构在美式期权定价中相比传统ResNet优化效果更优,学习速度更快,且具有更高的逼近阶数[page::0][page::10][page::15][page::16]

速读内容


新架构提出与数学背景 [page::0][page::1][page::4]

  • 提出一种基于高阶显式Runge–Kutta弱逼近算法的深度神经网络架构,专门学习描述鞅的随机微分方程贡献向量场。

- 采用高阶弱逼近(≥2阶)提升数值离散的准确性,克服一阶方法的局限。
  • 具体利用两种高阶弱逼近方法(NVnet与NNnet)实现SDE离散,均基于RK5explicit方法的多层神经网络。


高阶神经SDE网络(NVnet与NNnet)设计 [page::8][page::9]

  • NVnet通过串联(d+2)个ODE积分器实现,每层由RK5net支持。

- NNnet通过串联2个ODE积分器实现,系数和随机变量经过复杂线性组合。
  • 两种网络都能二阶逼近SDE,学习的系数函数即为SDE的鞅过程向量场。


美式期权定价应用与优化流程 [page::10][page::11][page::12]

  • 利用Rogers对偶算法规避停时优化,将定价问题转化为鞅过程学习的最小化问题。

- 利用MLP拟合向量场,采用Adam优化器、Sobol序列的Quasi-Monte Carlo进行高维积分。
  • 为实现鞅性质,设计了去漂移的中心化技巧避免复杂的Ito-Stratonovich转换计算。


数值实验及性能对比 [page::15][page::16]



  • 在Black–Scholes–Merton模型下,NVnet以4个大步长(4个分段)实现的高阶方法,1500迭代内达到的LOSS远优于一阶ResNet的1024小步长。

- 在Heston模型下,NVnet在50次迭代内迅速优化,ResNet训练2000次仍表现平平。
  • 实验表明高阶方法显著提升学习效率和最终精度。


算法实现与隐含挑战 [page::11][page::13]

  • 经典Ito-Stratonovich转换引入的一阶鞅性质计算复杂,故采用去漂移中心化策略简化。

- 模型设计限制导致鞅空间较小,实际效果仍待工程优化与深度评估。
  • 目前仍缺少NNnet的实验验证,后续将补充。


深度阅读

报告标题与概览



报告标题:
《A NEW ARCHITECTURE OF HIGH-ORDER DEEP NEURAL NETWORKS THAT LEARN MARTINGALES》
作者: Yuming Ma 和 Syoiti Ninomiya
发布机构: 东京理工学院相关工程与数学系
主题: 基于高阶弱近似算法的深度神经网络架构设计,实现对随机微分方程(SDE)中鞅过程的高效学习,并应用于金融衍生品定价。

这篇报告提出了一种新颖的深度神经网络架构,该架构基于显式Runge–Kutta类型的高阶弱近似方法,主要目的是通过反复组合和线性组合目标SDE的向量场来准确地学习鞅(Martingale)过程。论文不仅在数学与算法层面介绍该架构,还对其在金融衍生品定价问题中的表现进行了实证验证。作者通过与现有一阶网络(如ResNet)对比,展示了高阶网络的学习效率和准确度优势。

---

报告详细分析



1. 引言与背景



1.1 研究目的与背景


报告首先介绍了研究目标:构建一类新颖的高阶深度神经网络架构,用于学习表示鞅的随机微分方程(SDE)的向量场。重点是:
  • 网络针对SDE中描述扩散过程的系数函数(向量场)进行学习;

- 基于高阶弱近似方法,即类似于Runge–Kutta的显式迭代组合方法。

神经网络基础简介涉及DNN层的线性变换和激活函数映射,定义了多层神经网络(MNN)及深度神经网络(DNN)的概念,强调网络层输入与输出空间维度相等,简化讨论。

1.2 高阶弱近似算法

  • 报告回顾了多种高阶弱近似方法,指出传统Itô-Taylor展开在多维布朗运动迭代积分存在计算难点,后文引入的高阶弱近似法绕开了此难题。

- 详细定义了SDE的向量场符号系统和基于Stratonovich积分与Itô积分的转换关系(Itô–Stratonovich变换),明确区分符号表示以保证数学严谨。
  • 定义了弱近似与模拟方法,包括分段离散化、随机变量采样(高阶弱近似通常结合Monte Carlo或Quasi-Monte Carlo),并区分离散误差和积分误差,报告主要关注离散误差。

- 介绍了离散化精度定义,强调高阶离散化为二阶或以上离散精度。

1.3 离散化方法示例

  • Euler–Maruyama:经典一阶弱近似方法,示范其离散形式及误差特性。

- Cubature 3:基于布朗运动标准正态随机变量线性组合的离散方案,同样为一阶精度。
  • 高阶方法I和II (NV法和NN法):两种可实现2阶及以上的显式Runge-Kutta类型弱近似算法。通过串联多个ODE积分器,利用随机变量和向量场的组合进行高阶离散,设计灵活且可被神经网络实现。

- 说明了三类方法的与Wiener空间上的余立方方法(cubature on Wiener space)的关系,通过替换随机变量为有限分布变量得到对应的高阶表示。

---

2. 高阶深度神经SDE网络



2.1 ResNet与Euler方案的对应


论文指出,ResNet结构可视为Euler一阶近似,即网络的残差连接对应一步Euler数值积分。每层中网络参数相当于学习ODE的切向量场调用。ResNet因此可看作一阶神经网络。

2.2 高阶ODE近似神经网络

  • 以显式5阶Runge-Kutta方法(RK5)为例,演示如何将高阶ODE近似映射为神经网络结构。

- RK5网络实现仅需函数应用及线性组合两种操作,不涉及向前引用,因而适合理解为神经网络的层级结构。
  • 图1形象展示了RK5方法的工作原理与数据流,清晰反映了分步计算和加权组合。


2.3 高阶深度神经SDE网络架构

  • NVnet:基于方法I,层包含d+2个串联ODE积分器,均使用RK5实现,分层连接保证了整体为2阶近似。

- NNnet:基于方法II,由2个序列ODE积分器组成,依然以RK5实现,构成同样为2阶的DNN网络。
  • 两种网络的本质目标均是学习SDE中的向量场,从而学习对应的随机过程。


---

3. 数值实验与应用



3.1 美国期权定价问题


结合定价困难的本质,采用Rogers的对偶方法,将美国期权价格表达为关于鞅过程的优化问题,避免了对所有停止时间的搜索。
网络任务即用DNN寻找最优鞅过程,目标最小化期权收益与鞅差值的最大值的期望。

3.2 实现难点与解决策略

  • Itô–Stratonovich变换中的高阶微分操作难以直接建模,推导出理论上复杂、实现上成本高。

- 采取了实用的近似策略:直接将$V0^M$置零,确保输出鞅过程均值为零的分布性质,通过中心化操作降解计算复杂度。
  • 经典的原型方案(canonical方法)由于计算成本高,未被采用。

- 利用布朗桥近似解决了时间离散化网格较宽时计算路径最大值带来的偏差问题。

3.3 实验参数

  • 使用TensorFlow 2,硬件配备高端CPU和GPU。

- MLP结构为三层(两隐藏层32节点,输出层32节点),ReLU激活。
  • 采用基于广义Sobol’序列的Quasi-Monte Carlo积分,批次大小为5000。

- 优化采用Adam算法,详细步骤清晰表述。
  • 两种标的资产模型:经典Black–Scholes–Merton以及含随机波动率的Heston模型。

- 目标资产价格与波动率通过定义向量场$V
i$参数化。
  • 目标美式看跌期权,行权价100,期限1年。


3.4 实验结果

  • Black–Scholes模型:NVnet (2阶)在250次训练后达成ResNet(1阶)约1500次后相当的Loss值表现,优于ResNet,且距离二叉树定价12.66较为接近。

- Heston模型:NVnet学习速度和最终Loss优于ResNet,NVnet仅用50次迭代显著提升,而ResNet超2000次未达相同水平,差异更明显。

3.5 讨论与未来任务

  • 当前实现采用标准TensorFlow库,未针对工程优化,未来需进一步完善优化算法与网络设计。

- 实验表明高阶DNN在金融鞅过程学习上表现更佳且更快。
  • 下一步计划尝试NNnet结构,以及探索不借助Monte Carlo的高阶重合方法。

- 提出两个亟待解决的问题:其一,Black–Scholes模型下未达到二叉树定价可能因优化不足;其二,Heston模型下训练迭代不够充分,且内存消耗大。

---

图表深度解读



图1:5阶显式Runge-Kutta方法示意图


图1展示了RK5算法的具体运算步骤:输入$xk$经过6个阶段$Zi$的计算,并通过加权系数$a{ij}, bi$在多个叠加节点间线性组合后,生成下一时间点$x{k+1}$。图中箭头反映了数据流动路径与前向传播顺序,有助理解RK5实现为神经网络的可行性。该图形象展现了高阶数值解法与网络层结构的对应,支持报告提出的高阶神经网络实现理念。

图2:Black-Scholes-Merton模型下训练Loss曲线


图2曲线比较了ResNet(采用Euler–Maruyama一阶离散)和NVnet(高阶2阶方法)在训练迭代次数上的Loss表现。
  • 横轴为参数更新次数(迭代次数),纵轴为Loss值(该Loss即为美式期权价格估计)。

- 图中点划线(ResNet)下降较慢,达到收敛需超过1500次迭代,最终Loss约14;实线(NVnet)仅250次迭代即稳定于13.5左右。
  • 浅色虚线给出基准二叉树价格12.66,NVnet更接近理想值。

- 说明高阶网络在学习效率和准确度上有明显优势,且允许使用较宽时间步长实现快速训练。

图3:Heston模型下训练Loss曲线


与图2类似布局。
  • NVnet表现尤为突出,仅50次迭代即显著降低Loss,最终收敛到约10左右;而ResNet尽管迭代2000次仍较高,约12。

- 显示复杂随机波动率环境下,高阶神经网络更能快速且有效逼近目标理想鞅过程。

---

估值方法分析



本报告主要涉及衍生品的数值定价,通过学习对偶鞅过程间接估值,而非传统的封闭式估值公式。通过高阶弱近似算法,网络学习代表SDE的向量场,实现对鞅过程(理想对冲策略)的拟合进而估计期权价值。
  • 估值核心基于Rogers对偶表示:选取鞅$Mt$使得最大收益$E[\supt (Zt - Mt)]$最小化,即从鞅族中寻找最优。

- 采用高阶弱近似覆盖时间离散误差,Quasi-Monte Carlo负责降低数值积分误差。
  • NVnet等网络架构通过提高近似的离散收敛阶数(2阶),提升模型精度与训练速度。


---

风险因素评估


  • 近似误差风险:弱近似仅控制离散误差,数值积分误差依赖样本大小与方法,报告中采用Quasi-Monte Carlo。但实际财务应用需注重整体误差积累。

- 模型设定风险:SDE假设、参数标定与MLP结构限制可能导致偏差,尤其$V
0^M$项被忽略的简化对鞅特性真实性造成影响。
  • 优化风险:训练迭代次数有限、可能陷入局部极小,导致估价远离最优解。

- 计算资源风险:高阶方法虽理论优越,但实现需大量内存和计算力,可能限制其工程应用。

报告虽未详细讨论风险发生概率,提出了未来工程优化的必要性以缓解内存与计算负担。

---

批判性视角与细微差别


  • 报告在数学框架上高度严谨,但实现层面存在明显工程欠缺。例如,Itô–Stratonovich变换的复杂性被绕过,$V_0^M=0$的设定虽实用,却可能在理论上导致鞅性质缺失或不完整。

- 在数值实验中,Black-Scholes模型下Loss未达到理论最优值,可能因优化不足或模型限制。
  • 当前仅全面实现了NVnet,NNnet等结构待后续验证,其性能差异和适用性未明,这对方法的通用性评估带来不确定。

- 模型对输入数据(随机变量采样)的依赖,生成的样本效率和方差影响训练稳定性,未被深入探讨。
  • 代码实现利用通用TensorFlow库,无针对性优化,可能影响实验结果的速度和可扩展性。


---

结论性综合



本报告提出了一种基于高阶Runge–Kutta类型弱近似方法的深度神经网络架构,以学习随机微分方程中的鞅过程,进而用于金融衍生品尤其是美国期权的定价。报告中:
  • 明确了高阶离散化的重要性,二阶及以上弱近似有效提升数值精度和计算效率。

- 构建了两种2阶深度神经SDE网络:NVnet和NNnet(后者尚未完全实现),均基于串联RK5 ODE积分器。
  • 通过数值实验,在Black–Scholes和Heston两类模型下,NVnet均表现出较一阶ResNet优越的学习速度和更低的Loss,验证了高阶网络设计的有效性。

- 网络实现上利用了Rogers的期权对偶定价方法,将复杂的最优停止时间问题转化为鞅过程优化问题,并巧妙地采用中心化操作缓解Itô–Stratonovich变换的实现困境。
  • 采用Quasi-Monte Carlo辅助数值积分和布朗桥技术有效提高最大过程模拟的准确性。

- 结果表明,该高阶架构显著提升了训练效率,具体实验中NVnet相比ResNet在迭代次数上最低减少至1/6甚至更低,且获得更优的损失函数值。
  • 报告同时指出了当前实现的不足与未来改进方向,包括优化计算资源利用、提高训练迭代、完善网络结构多样性、以及理论与工程两方面的深度结合。


最后,通过图2、图3展示的训练LOSS曲线,验证了本文提出的深度神经网络架构可显著改进金融衍生品定价实践的计算效率和精度,具有理论与应用双重价值。

---

参考文献主要内容提示



报告引用了包括深度学习经典文献(如ResNet[10])、数学金融基础理论([2],[3],[9],[11],[12])、随机微分方程弱近似经典成果([15],[22],[23],[29])、神经网络在金融中的应用([4])、以及编程优化算法(Adam[14])等多个领域的经典文献,体现其跨学科研究的广度和深度。

---

图表引用



图1:5th order explicit Runge–Kutta type method





图2:ResNet vs NVnet, Black–Scholes–Merton model





图3:ResNet vs NVnet, Heston model





---

结尾



总体而言,本报告整合了SDE的高阶弱近似数学理论与深度学习架构设计,系统提出并验证了基于高阶Runge-Kutta神经网络的鞅学习机制,为金融期权定价提供了理论先进而应用可行的新工具。【page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17】

报告