Neural-Network Stochastic Differential Equation Models for Pricing and Hedging Financial Derivatives
创建于 更新于
摘要
本报告提出了基于神经网络构建漂移与波动函数的随机微分方程(SDE)模型,创新性地设计了针对欧式期权的无偏随机梯度下降训练算法及基于Kolmogorov PDE的美式和Bermudan期权标定方法。实证中,模型在标普500和标普100指数期权及单股票美式期权上表现出优异的定价和对冲性能,显著优于Black-Scholes、Dupire局部波动率和Heston模型,并能实现对未见成交品种的泛化定价[page::0][page::1][page::3][page::4][page::6][page::13][page::16][page::22][page::25]
速读内容
- 神经网络SDE模型架构及训练方法 [page::0][page::2][page::3]:
- 模型通过神经网络拟合漂移和波动率函数,形式为 $dSt = \mu(St,Yt;\theta)dt + \sigma(St,Yt;\theta)dWt$,包含多维布朗运动及相关系数。
- 针对欧式期权,提出基于两组独立蒙特卡洛路径实现的无偏随机梯度估计方法,解决了传统蒙特卡洛梯度估计偏差问题。
- 美式/半美式期权采用对应Kolmogorov PDE形式,利用有限差分法和自动微分实现并行标定,适合大量合约优化。
- 神经网络模型与经典模型对比及数值表现 [page::6][page::7][page::8][page::9][page::11][page::13]:
| 模型 | 均方误差(MSE) | 平均绝对误差(MAE) | 相对平均绝对误差(%) |
|--------|--------------|------------------|-------------------|
| Black-Scholes | 相对较高 | 较高 | 较高 |
| Local Volatility | 优于BS | 较优 | 较优 |
| Heston | 介于二者之间 | 中等 | 中等 |
| 2D Neural Network SDE | 最低 | 最优 | 最优 |

- 神经网络SDE模型在标普500欧式期权上实现了显著的价格拟合优势,尤其在不同到期时间和行权价组合的定价泛化上表现突出。
- 多维神经网络SDE模型变体及具体结构 [page::6]:
- NNLV:只利用神经网络拟合Dupire局部波动函数,离线优化,模拟时直接调用。
- SDENN:整体SDE优化,仅波动率函数由神经网络拟合,使用随机梯度下降。
- SDENN-Drift:漂移与波动率均由神经网络拟合,全面优化。
- 2D-NN:两维SDE模型分别拟合资产价格与隐含波动率,相关系数和隐变量初值作为训练参数。
- 2D-NN模型在多项指标上均优于其他深度学习及传统模型。
- 泛化能力验证及多场景测试 [page::8][page::9][page::11][page::13]:
- 次日定价、未见收益函数(训练呼叫期权,测试看跌期权)、大行权价外推均显示神经网络SDE模型具有强泛化能力和稳定表现。


- 重标定对模型稳定性和准确性的提升 [page::13][page::14][page::15]:
- 连续两个月每日重标定提升模型预测精度,尤其在波动率和价格大幅变动时体现优势。
- 2D-NN模型在未重标定情况下亦表现稳健,显示其泛化与鲁棒性。

- 美式期权PDE训练与实证表现 [page::16][page::17][page::18][page::19][page::21]:
- PDE优化允许处理带早期行权特性的美式、半美式期权,限于计算复杂度采用自动微分GPU并行加速。
- 在100只股票级别的美式期权测试中,2D-NN同样优于Black-Scholes、局部波动率和Heston模型。


- 训练欧式数据测试美式期权表现验证泛化能力 [page::21][page::22]:
- 使用标普100指数欧式期权训练后测试美式期权,2D-NN模型仍表现优异,具备跨标的与跨支付函数泛化能力。

- 期权Delta对冲性能评估 [page::22][page::23][page::24][page::25]:
- 神经网络SDE模型在次日对冲实测中,全面超过局部波动率和Heston模型,略低于Black-Scholes模型。
- 在价平对冲测试中,神经网络模型表现略逊于传统模型,表明仍存优化空间。
- 重标定大幅提升神经网络模型对冲效果,显示连续训练策略必要性。
- 对冲误差指标包括MAE、MSE及相对MAE,多项结果均指向2D-NN模型综合优势。
深度阅读
详尽解读报告《Neural Network SDE Models for Option Pricing and Hedging》
---
一、元数据与报告概览
- 标题:Neural Network SDE Models for Option Pricing and Hedging
- 作者:Lei Fan、Justin Sirignano
- 主题:将神经网络嵌入随机微分方程(SDE)框架以实现金融衍生品的定价与对冲
- 核心内容及贡献概述:
1. 传统的金融衍生品定价常依赖有少量参数的代数函数描述漂移和波动率,而本文提出用神经网络替代这些函数,极大提升模型灵活度和拟合市场数据的能力。
2. 提出两种主要的训练方法:
- 对欧洲期权,使用一种基于两个独立SDE路径的无偏随机梯度下降(SGD)算法进行参数优化。
- 对美国及Bermudan期权,利用神经网络系数函数嵌入的Kolmogorov偏微分方程(PDE)优化。
3. 在真实市场数据(如标普500、标普100指数期权及单股票美国期权)上系统评测神经网络SDE模型,比较传统模型(Black-Scholes、Dupire局部波动率、Heston模型),验证其在多种衍生品定价的泛化和对冲表现上的优势。
该报告不仅在模型创新上实现突破,同时在算法设计与数值实证方面亦具深度,强调实际操作层的可行性和效率。
---
二、逐节深度解析
1. Neural-Network SDE Models(神经网络随机微分方程模型)
- 模型定义:
SDE系统为两维:资产价格 \( St \) 与潜变量 \( Yt \)(通常代表隐含波动),随机过程如下:
\[
\begin{cases}
dSt = \mu(St, Yt; \theta) dt + \sigma(St, Yt; \theta) dWt,\\
dYt = \muY(St, Yt; \theta) dt + \sigmaY(St, Yt; \theta) dZt,
\end{cases}
\]
其中,漂移函数 \(\mu, \muY\) 和波动率函数 \(\sigma, \sigmaY\) 都用神经网络参数化,参数为 \(\theta\);\(Wt\) 与 \(Zt\) 是两个相关的布朗运动。
- 贡献点:通过使用神经网络赋予漂移和波动率函数高度的表达自由度,相比经典的少参数模型(如Heston)更加灵活,可以捕捉市场复杂动态。
- 参数校准:通过市场观测到的衍生品价格校准 \(\theta\),然后用于定价和对冲新衍生品。
[paged::0]
---
1.1 定价欧洲期权
- 价格表达:
每个欧洲期权 \(i\) 的市场价格为 \(Pi^{market}\),期限和执行价格分别为 \(Ti\) 和 \(gi\)(行权函数)。模型价格为:
\[
Pi(\theta) = e^{-r Ti} \mathbb{E}[gi(S{Ti})]
\]
- 优化目标:
通过最小化均方差目标
\[
J(\theta) = \frac{1}{N} \sum{i=1}^N (Pi^{market} - Pi(\theta))^2,
\]
使模型价格逼近市场价格。
- 难点:
需要对SDE \((St, Yt)\)的路径期望进行采样计算,且需无偏地估计梯度,计算复杂。
- 噪声梯度:
报告提出一个利用两套独立SDE路径样本来获得无偏估计的策略,即梯度估计不直接用同一套样本计算梯度与残差乘积,从而避免偏差。
[paged::1, 2]
---
1.2 Bermudan及美国期权的定价
- Bermudan/American期权的特性是可选任意时点行权,故定价依赖整个路径历史,不仅是终点。
- 价值函数 \(V^{(m)}(s,y)\) 通过动态规划满足:
\[
V^{(m)}(s,y) = \mathbb{E}\left[e^{-r \Delta} \max\left( V^{(m+1)}(S{t{m+1}}, Y{t{m+1}}), gi(S{tm}) \right) | S{tm} = s, Y{tm} = y \right].
\]
- 该价格函数非线性,无法用直接的SGD训练,必须用PDE方法求解。
- 每个合约需独立求解对应 PDE,计算量极大,因此采用GPU并行加速与自动微分技术。
[paged::1]
---
2. 优化方法
2.1 欧洲期权的无偏SGD
- 使用Monte Carlo路径估计期望,普通直接自动微分求梯度导致偏差,其原因是期望(残差×梯度)不等于残差期望乘以梯度期望。
- 设计了基于两批独立样本随机路径的梯度估计 \(G^L(\theta)\),样本间独立性确保
\[
\mathbb{E}[G^L(\theta)] = \nabla\theta J(\theta),
\]
获得无偏梯度估计,有助于保证SGD收敛。
- 此方法重用同一Monte Carlo路径集用于所有合约,节省计算资源。
[paged::2, 3]
---
2.2 PDE优化框架
- 可支持更广义的损失函数
\[
J(\theta) = \frac{1}{N} \sum{i=1}^N \ell(Pi^{market}, Pi(\theta)),
\]
其中定价函数 \(Pi(\theta)\)通过解Kolmogorov反向PDE获得。
- PDE具体为:
\[
-\frac{\partial vi}{\partial t} = \mu \frac{\partial vi}{\partial x} + \muY \frac{\partial vi}{\partial y} + \frac{1}{2} \sigma^2 \frac{\partial^2 vi}{\partial x^2} + \rho \sigma \sigmaY \frac{\partial^2 vi}{\partial x \partial y} + \frac{1}{2} \sigmaY^2 \frac{\partial^2 vi}{\partial y^2} - r v,
\]
带有期权终端条件 \(vi(T, s, y) = gi(s)\)。
- 可使用有限差分法数值离散,再利用自动微分(AD)对参数求梯度。
- 这种方法是标美期权定价的必备,因为其定价函数非线性且带早期行权特性。
[paged::4]
---
2.3 Bermudan与美国期权优化
- 价格通过非线性PDE循环求解,时间分段,每期权对应一个序列PDE:
\[
vi^{(m)}((m+1)\Delta, x, y) = \max (gi(x), v_i^{(m+1)}((m+1)\Delta, x, y)),
\]
递推至初始时间获取价格。
- 利用GPU并行,PDE数据结构设计为三维张量(两个空间维度和合约ID),充分利用矩阵计算加速。
- PDE求解联动神经网络参数输出,变量微分求导方便。
[paged::4]
---
3. 数值实验:欧洲期权
- 数据:真实标普500指数欧式期权
- 神经网络结构:全连接,2层,每层200个激活单元,激活函数为Softplus
- 对比模型:
- BS(Black-Scholes)
- LV(局部波动率,Dupire公式)
- Heston(2维随机波动率模型)
- 神经网络模型变体:NNLV(仅局部波动率用神经网络),SDENN(全程优化SDE波动率),SDENN-Drift(波动率和漂移均用神经网络),2D-NN(两维神经网络,含隐变量Y)
- 训练考察:
1. 当日内(intraday)现货价格的样本外预测效果。
2. 次日价格预测。
3. 异构支付函数的泛化能力(训练调用选项,测试执行选项)。
4. 非样本内执行价的泛化。
- 结果综合(表格及图表分析,见后图表深度解读)表明:
- 神经网络SDE模型在多种评测指标(均方差MSE,平均绝对误差MAE)均优于传统模型。
- 2D-NN模型表现最好,展示了隐变量设计的有效性。
- 模型具备较好的泛化能力和稳定性,日间及跨日均表现优秀。
[paged::4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
---
4. 数值实验:美国期权
- 数据集包括:
- S&P 500指数中100只股票的美国期权合约。
- S&P 100指数的美式及欧式期权。
- 方法采用PDE优化训练。
- 评测维度包括:当日内样本外、次日预测、异类支付函数泛化,以及欧式训练对美式测试。
- 主要发现:
- 神经网络SDE模型当日内及次日定价均明显优于Black-Scholes与传统模型,且保持对价格曲面(不同执行价和到期时间组合)的准确拟合。
- 美式期权特有的早行权权利通过PDE模型有效捕捉。
- 模型在不同标的及多个股票上均表现稳定,尤其是2D-NN模型。
[paged::15, 16, 17, 18, 19, 20, 21, 22]
---
5. 对冲性能评价
- 目标:验证训练完成的神经网络SDE模型在动态对冲中的实用性。
- 使用增量价格变化和Delta对冲误差的评估指标:
- 平均绝对误差(MAE)
- 均方误差(MSE)
- 相对平均绝对误差(相对MAE)
- 实验包括:
1. 次日动态Delta对冲表现;
2. 以到期日1天为视角挑选的平值期权对冲测评;
3. 不同支付函数(鉴于只训练了看涨期权)下的对冲泛化表现;
4. 带有与不带有再校准的对冲表现对比。
- 主要结论:
- 神经网络SDE模型整体对冲效果优于Dupire局部波动率和Heston模型,但略逊于Black-Scholes模型,尤其是在平值Delta对冲任务上。
- 对于长期和多样支付结构的衍生品,神经网络SDE显示更好泛化能力和对冲优势。
- 再校准显著提升了神经网络模型的对冲表现,体现了模型可以快速适应市场变化。
[paged::22, 23, 24, 25]
---
三、图表深度解析
图1(第7页)
- 描述:展示2017年9月1日标普500指数看跌期权价格的不同模型预测结果与市场价格对比。
- 数据和趋势:
- 市场价格用红色圆圈标出。
- 绿色虚线为随机波动率模型,蓝色虚线为神经网络模型,黑色点划线为局部波动率模型。
- 左图:神经网络模型紧贴市场价格,误差明显小于其他模型。
- 右图:神经网络模型预测价格与市场价格差异在全天不同执行价上均较小,波动率模型和局部波动率模型误差波动大。
- 意义:验证神经网络模型在相同日内对未观察期权的拟合优越性。

---
图2-4(第9-10页)
- 描述:三幅3D图描述模型在训练于看涨期权后,于看跌期权上定价及隐含波动率的表现(2017年9月1日、10月23日、11月10日)。
- 数据和趋势:
- 神经网络的定价点(蓝色)紧贴市场标红虚线,隐含波动率曲线同理。
- Heston和局部波动率模型表现不及神经网络,特别是在波动率曲线的平滑及拟合精度上。
- 投射各执行价和到期时间,神经网络模型更好地捕获市场微妙结构。
- 意义:体现训练于一种支付函数,模型成功泛化至另一种支付函数。



---
图5-7(第11-12页)
- 描述:模型训练于低执行价期权,测试于高执行价期权的预测结果(分别为三日样本日)。
- 数据和趋势:
- 神经网络模型(蓝色散点)较好地重现市场价格(红色),隐含波动率合理分布。
- 传统模型误差较大,尤其在高执行价区间有明显偏差。
- 意义:表明神经网络模型对执行价格区间的泛化能力强,适应性佳。



---
图8-11(第14-15页)
- 描述:对比连续多日(分别为数据集第1、10、20、40天)采用每日再校准与不再校准神经网络模型的定价性能。
- 数据和趋势:
- 再校准模型(蓝色)价格拟合市场更紧密,尤其在特殊行权价和到期时间组合上。
- 不校准模型随着时间推移,误差逐渐增大,但整体表现仍较稳健。
- 意义:显示模型稳定性及持续调优的重要性。




---
图12(第17页)
- 描述:三支股票(BKR、PG、PYPL)美国期权定价比较,含神经网络及传统模型。
- 趋势及解读:
- 神经网络模型(蓝圈)紧贴市场价格曲线(红虚线)。
- 传统Black-Scholes及局部波动率模型在低价位或深实值方向出现偏差。
- 意义:表明神经网络SDE架构在模型复杂性和拟合能力上的优势。

---
图13-14(第19-20页)
- 和图12类似,进一步展示神经网络模型在次日及异类支付权利下优越表现。


---
图15-16(第21-22页)
- 说明:模型基欧式期权训练,对美式期权测试的泛化性能,含价格及隐含波动率拟合。


---
四、估值方法回顾
- 本文估值本质上基于标的资产价格的模拟路径(欧洲选项)或PDE数值解法(美式选项),从价格等式预期和动态规划出发。
- 核心创新是将神经网络作为漂移和波动率函数的参数化表达代替传统经验或解析公式。
- 估值的输入依赖于:
- 神经网络参数 \(\theta\)
- 初值、市价、利率等市场数据
- Monte Carlo路径数或PDE网格稠密度
- 估值过程多次结合自动微分技术实现高效优化。
- 没有单纯基于传统市盈率P/E等倍数法的估值,更多依赖高维非线性数值优化。
---
五、风险因素评估
- 计算复杂度:训练需同时处理数千合约的大规模数据,计算负载高昂,依赖GPU等高性能计算。
- 模型过拟合风险:高自由度神经网络易过拟合历史价格数据,对非样本期权隐患存在。
- 市场波动与流动性风险:如果市场价格波动剧烈,模型再校准频率不足则表现受损。
- 技术风险:自动微分和有限差分数值解法的平稳性和准确性对估计精度影响重大。
- 参数稳定性:模型长期稳定性依赖参数设定和训练策略,尤其对次日预测效果敏感。
报告虽未专门披露对风险的缓解策略,但通过再校准机制及多日训练数据覆盖策略,间接体现风险应对思路。
---
六、批判性视角与细微差别
- 神经网络高度灵活,对数据拟合效果优异,但未见对样本外极端市场事件(如市场崩盘)下表现的测试。
- 报告依赖特定激活函数和网络结构,是否存在体系最优尚无探讨。
- 美国期权定价PDE求解虽实现GPU并行,但解决多合约的规模扩展性、内存消耗未详细量化。
- 对权利组合复杂期权(如含跳跃或多资产)的扩展性未考虑。
- 对模型的经济解释性不足,例如神经网络生成的漂移项是否符合金融经济学合理预期。
---
七、结论性综合
该报告提出了一种创新的将神经网络与随机微分方程模型融合的解决方案,用于金融衍生品的定价与对冲。其主要贡献是:
- 模型层面:用神经网络表达漂移及波动率函数,引入更高自由度和灵活性。
- 算法层面:针对欧洲期权设计了具有无偏性质的随机梯度下降算法;对美式期权则基于嵌入神经网络参数的Kolmogorov PDE进行优化,并实现GPU加速数值求解。
- 实证层面:基于标普500、标普100及100支股票的多种期权历史数据实验表明,神经网络SDE模型不仅在样本内拟合精准,更在样本外泛化及对冲性能上优于经典模型,如Black-Scholes、Dupire局部波动率和Heston模型。
- 图表洞察:
- 多张价格曲线和隐含波动率图显示神经网络模型价格曲线与市场数据紧密匹配,误差明显小于传统模型。
- 递归再校准策略保证了模型在较长时间序列上的稳定性和准确性。
- 对冲相关图表和表格说明神经网络模型能在动态对冲场景下实现较低的价格变动误差,尤其在非平值期权和多样支付结构下表现突出。
- 总体结论:神经网络参数化SDE模型是对金融衍生品定价建模的突破,结合现代机器学习和高性能计算方法,显著提升金融工程中衍生品定价及风险管理的有效性和灵活性。
---
参考文献归纳
- 结合Black-Scholes模型基础[1,2]及市场不完美假设实证[3-9],确认经典模型不足;
- 神经网络在金融中的早期应用[10-15]对照本文创新点;
- 近期相关神经SDE研究[16-19]对算法和实证的借鉴。
---
综上所述,该报告不仅拓展了模型理论,也实现了针对实际交易环境的数值方法创新,重点展示了将深度学习与随机微分方程完美结合于金融衍生品领域的前沿成果。全文以清晰系统的推导、严谨的算法设计和精细的实证验证,充分体现该研究的学术价值与实际应用潜力。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26]