`

A MARKET RESILIENT DATA-DRIVEN APPROACH TO OPTION PRICING

创建于 更新于

摘要

本文提出了一种基于无套利理论的数据驱动组合模型,解决期权价格预测中的跨市场域适应问题。通过引入隐含波动率估计构建公共表示空间,实现不同资产之间的价差桥接。结合印度国家证券交易所的NIFTY 50和NIFTY银行指数实证,验证了域移位模型在COVID-19异常期间的显著精度提升,并提出基于域移位商的集成模型进一步优化预测性能 [page::0][page::1][page::9][page::10][page::16][page::17][page::22]

速读内容

  • 研究背景与动机:期权定价理论丰富,包含多种数学模型,但数据驱动方法在跨资产及域适应能力上仍存在挑战。本文提出将数据科学技术融入随机模型,构建数据驱动的期权定价框架 [page::0][page::1]。

- 理论框架:
- 采用无套利假设及市场模型设定(M1-M3),建立两资产相同风险中性分布条件下的价格同余定理(Theorem 2.2),公式体现“同质性提示”方法(Homogeneity Hint Approach,$ \mathcal A{HH} $) [page::2][page::3][page::4]。
- 针对资产回报分布不完全相同时,提出$\rho$-缩放过程调整,定义“波动率标量”$\rho$,实现不同资产在该尺度下的风险中性分布匹配(Theorem 2.6),奠定跨域表示基础 [page::5][page::6][page::7]。
  • 域适应与公共表示空间:

- 通过近似隐含波动率关系,建立实际价格与缩放价格之间的近似等价,构建跨资产的公共表示指标$\mathcal{U}$,作为该域适应模型的目标变量 [page::8][page::9]。
- 定义域移位方法$ \mathcal{A}
{DS} $,以历史波动率为权重,调整物件价差预测,提升跨资产或异常市场表现能力 [page::10]。
  • 集成模型设计:

- 提出域移位商(DSQ)衡量训练集与测试集间的波动率差异,根据DSQ动态加权同质性与域移位模型预测,形成集成模型$\mathcal{A}E$,对应权重由训练数据通过最小二乘法估计 [page::10]。
  • 数据与特征处理:

- 选取印度NIFTY50及BANKNIFTY两个大宗期权市场,2015-2020历史数据,划分为训练集、典型测试集和异常测试集(COVID-19期间) [page::11][page::12]。
- 特征包括历史19日中心化排序对数收益率序列、贴现后的剩余期限、虚值度、无风险利率及前一天期权价格归一化指标 [page::13][page::14][page::15]。
  • 模型实现与评估:

- 采用XGBoost回归,分别实现$ \mathcal A
{HH} $、$ \mathcal A{DS} $、$ \mathcal AE $三种方法,利用规范化均方根误差(RMSE)衡量预测表现 [page::15][page::16]。
  • 实证结果:

- 集成模型整体表现最优,在所有测试集RMSE均远优于Black-Scholes-Merton基准,尤其异常期$ \mathcal A{DS} $显著优于$ \mathcal A{HH} $,典型期反之 [page::17]。
- 多源训练(结合NIFTY50和BANKNIFTY数据)模型大多数横跨交叉测试场景中优于单源训练,且集成多源模型RMSE均接近最优,展现鲁棒性 [page::18]。
- 预测残差直方图显示$ \mathcal A{HH} $和$ \mathcal A{DS} $对异常期残差存在系统偏差,集成模型有效中和偏差,表现更稳定 [page::19]。
- 集成参数$\lambda1$, $\lambda2$通过等高线图显示全局唯一最优,体现不同市场中域移位商权重差异 [page::20]。
  • 合成数据上的模拟分析:

- 利用Black-Scholes模型生成多波动率合成数据,验证$ \mathcal A{DS} $对大波动率(域移位)数据表现优于$ \mathcal A{HH} $,集成模型在大多数波动区间性能介于两者之间,且表现稳定 [page::21][page::22]。
  • 结论:

- 本文通过理论与实证双重方法,提出利用隐含波动率近似构建公共表示空间和域适应的期权价格预测模型,实现跨资产及异常市场稳健预测。集成模型进一步提升性能,体现了机器学习在金融工程领域的创新应用潜力 [page::22]。







深度阅读

深度分析报告:《A MARKET RESILIENT DATA-DRIVEN APPROACH TO OPTION PRICING》



---

1. 元数据与概览


  • 标题:A Market Resilient Data-Driven Approach to Option Pricing

- 作者:Anindya Goswami(IISER Pune,数学系),Nimit Rana(York大学,数学系)
  • 发布时间:未见明确发布日期(最新引用2024年)

- 研究领域及主题:利用数据驱动的集成学习方法结合无套利定价理论,构建具市场适应性和领域适应能力的期权定价模型。特别关注理论推导、域适应(domain adaptation)以及经验验证,通过印度国家证券交易所高流动性指数期权数据进行实证研究。
  • 核心论点

- 建立基于无套利理论的通用数据驱动期权定价框架,通过定义公共表示空间实现不同资产之间的领域适应。
- 理论证明和实证评估表明,结合风险中性度量下的波动率标量(volatility scalar)进行尺度变换,可以跨不同市场实现期权定价模型泛化。
- 提出一个基于领域转移指数(Domain Shift Quotient, DSQ)权重调整的集成学习模型,显著提升了模型在典型和非典型(异常波动)市场条件下的表现。
- 通过印度NIFTY 50和NIFTY Bank的期权数据验证算法有效性,特别检验COVID-19市场异常的域适应能力,展现稳健性。

---

2. 逐节深度解读



2.1 引言与背景



引言部分首先阐释了期权作为“保护不确定性风险”的金融“保修”工具的重要性。随后回顾了自Black-Scholes模型以来,期权定价的理论发展,并强调传统模型基于特定资产价格动力学假设,且不完全依赖数据驱动。

作者提出“数据驱动的期权定价”定义为不预设资产动力学模型,仅依赖观察数据的定价方法,但允许定价模型的推导依托无套利理论。此观点强调两者结合的创新——既保持理论基础,又兼顾实际观测数据的应用潜力。

文献回顾提及了以往多项基于标的资产指数(S&P 500等)数据的工作,涵盖特征选择、模块化设计和“同质性提示(homogeneity hint)”属性,均为理解本研究方法的理论基础。[page::0]

2.2 理论基础与模型设定(第2节)



2.2.1 基本市场假设与定义


  • 模型假设(M1-M3)

- M1:无套利的市场环境。
- M2:价格过程具有“仿射结构”,即资产价格可归一化,写成价格倍数形式,例:GBM等。
- M3:资产价格及辅助过程(如隐含波动率、状态变量)共同构成马尔可夫过程。

该假设涵盖了多因子、跳跃扩散模型等复杂动力学,提高模型普适性。[page::2]

2.2.2 关键定义及定理


  • Moneyness定义(敲定价格与当前价格比值,衡量期权状态):

- $p = K/s$,$p=1$为平值,$p>1$为价外,$p<1$为价内。
  • Theorem 2.2(Homogeneity / 同质性提示)

在满足上述M1-M3假设,两资产$S1, S2$下,且在风险中性测度$\mathbb{P}1, \mathbb{P}2$下,若它们归一化后的未来价格分布相同(条件为辅助变量相同),则对应的期权价格满足归一价格比例平等:
$$
s1^{-1}\varphi1(t,s1,v; p s1, T) = s2^{-1}\varphi2(t,s2,v; p s2, T)
$$
这体现了期权价格对于标的资产和行权价的线性齐次性质。模型无需两资产价格绝对值接近即可使用此等式,这是数据驱动跨资产学习的理论支柱。[page::3][page::4]

作者还指出,仅依赖该定理的模型适合分布相似资产的迁移学习,但现实中分布完全相同的条件较强,限制跨资产推广性能。

2.2.3 Parametric扩展与$\rho$-缩放(volatility scalar)



为松弛同质性提示中分布相同假设,引入$\rho$-缩放概念:
  • 定义$A(t) = S(t)^{1/\rho}$作为$S$的$\rho$-缩放过程。

- 该过程保留市场无套利属性,但即时波动率变为原波动率的$\rho^{-1}$倍。
  • 通过调节不同资产的$\rho$,使不同资产$\rho$-缩放价格的归一化分布相同。


Theorem 2.6进一步证明,选择波动率标量$\rhoi$作为剩余期权到期时间内未来波动率的均方根,可以实现两个资产$\rhoi$-缩放过程的归一价格分布相同,从而实现更宽泛的跨资产期权价格比较。

该$\rho$可用历史波动率或特定模型(如Heston模型的CIR过程)估计,保证其稳健且具经济意义。[page::5][page::6][page::7]

2.3 域适应的实现与近似表达(第3节)



因理论严格等式难以直接应用,作者利用近似隐含波动率计算公式([1]公式):

$$
IV^{Si} \approx \sqrt{\frac{2\pi}{Ti}} \left( \frac{\varphii(0,si,pi si, Ti)}{si (1+pi^)/2} - \frac{1-pi^}{1+pi^*} \right)
$$

结合波动率标量$\rho
i$,提出近似等式:

$$
\frac{IV^{S1,p1,T1}}{\rho1} \approx \frac{IV^{S2,p2,T2}}{\rho2}
$$

换言之,调整隐含波动率后,两资产期权价格在归一表示空间内近似一致,即公共表示空间的构建。该近似在实际波动率合理范围内误差小于5%(详见图1),为域适应建模提供可操作基础。[page::8][page::9]

2.4 三个学习模型设计(3.3,3.4节)


  • $A{HH}$ (同质性提示模型):基于归一的期权价格和归一化特征,适用于分布基本不变(无域变换)情境。

- $A
{DS}$ (域适应模型):基于公共表示空间及$\rho$规范化特征和目标,适应不同资产间的分布差异,实现跨域推广。
  • 集成模型$\mathcal{A}E$:利用域变换指数(DSQ)动态调整$A{HH}$和$A{DS}$权重,权重随DSQ上升向$A{DS}$倾斜,保证平滑过渡和稳健表现。

$$
PE(i) = \frac{1}{1+\lambda1 \text{DSQ}^{\lambda2}}P{HH}(i) + \frac{\lambda1 \text{DSQ}^{\lambda2}}{1 + \lambda1 \text{DSQ}^{\lambda2}} P{DS}(i)
$$
其中,DSQ定义为测试期波动率相较于训练期波动率的相对变化率。[page::10]

---

3. 图表深度解读



3.1 图1(第9页)


  • 内容:通过热力图及散点图展示近似等式(3.1)中相对误差随两资产波动率不同时的变化特征。

- 解读:当两资产波动率接近,相对误差可小于1.5%,且常见市场波动区间下误差不超过~4%左右。这验证了公共表示空间方案的实用性。右图散点图也揭示,最大波动率不超过最小波动率两倍时,误差非常低,误差随不匹配程度增加而上升。[page::9]

3.2 图2-4(第13-14页)


  • 内容:NIFTY50和BANKNIFTY指数交易数据的Q-Q图,展示不同时间段和资产间的收益率分布差异。

- 解读
- 训练期两指数收益率分布较为接近,Q-Q点位于接近对角线。
- 典型测试期与训练期收益率分布相符(图3a,4a),说明无显著域变换。
- 异常期(COVID-19)与训练期收益率分布显著偏离(图3b,4b),Q-Q倾斜明显,体现明显的域变换现象。
此结果支持采用集成和域适应模型对波动大环境的建模需求。[page::13][page::14]

3.3 图5(第19页)


  • 内容:残差分布直方图,比较$\mathcal{A}{HH}$和$A{DS}$模型在典型/非典型测试集上的预测偏差情况。

- 解读
- 典型数据:$\mathcal{A}
{HH}$残差更集中,偏差小且对称;$A{DS}$残差稍大,说明HH模型更适合无域变换环境。
- 非典型数据:两模型均有偏差,$A
{DS}$偶有较大过估计,$\mathcal{A}{HH}$则偏低估计,两者呈现不同方向的偏差,集成模型通过权衡显著减少极端偏差表现更优。
直观展现模型在不同市场情境下的区别与互补性。[page::19]

3.4 图6(第20页)


  • 内容:集成模型调参$({\lambda1}, {\lambda2})$的RMSE等高线图,对NIFTY50、BANKNIFTY和合并数据分别展示。

- 解读
- 各市场均表现出单峰RMSE最小区域,意味着集成权重有唯一较优解。
- NIFTY50对应的最优$\lambda
2 \approx 0$,说明DSQ权重幂次影响小,偏好$A{HH}$。
- BANKNIFTY及合并数据显现更复杂的DSQ权重依赖,表明域适应机制在更大域变换中更关键。
体现了模型对不同市场环境调节的自适应能力。[page::20]

3.5 图7、图8(第21-22页)


  • 图7:在合成GBM随机轨迹上,不同训练集训练的$\mathcal{A}{HH}$与$A{DS}$模型对不同测试波动率$\sigma$的RMSE表现。

- $\mathcal{A}
{HH}$模型性能随着$\sigma$上升单调恶化,显示缺乏跨域鲁棒性。$A{DS}$模型对$\sigma$上升表现出较缓的RMSE变化,表现域适应效果。
  • 图8:增加集成模型在同样合成数据上的表现。

- 集成模型在大多数波动率范围内表现不弱于两个单一模型。
- 在部分波动率区间甚至显著优于两者,体现权重动态调整带来性能提升。
这两图验证了理论模型与集成设计在实际域变换和参数变化下的有效性。[page::21][page::22]

---

4. 估值分析



本报告非传统理论估值法(如隐含波动率拟合、无套利曲面平滑、纯扩散或跳跃模型PDE数值法)为主,而使用数据驱动回归模型对归一化价格指标进行拟合,并通过波动率标量进行归一化处理,部分脱离实物资产定价而聚焦映射关系。

具体估值方法中,基于Black-Scholes-Merton的隐含波动率近似表示在(3.1)进行了重要运用,其基础是利用理论隐含波动率与期权价格之间的近似反函数关系,实现公共表示空间的刻画,实现跨市场/资产的交易策略适用性。

目标变量有两种形式:
  • $\mathbf{\mathcal{A}}{HH}$:目标为归一期权价格$100 \times \frac{C}{S}$,突出标的资产价格无关性。
  • $\mathcal{A}{DS}$:目标为(3.1)定义的调整变量,结合波动率标量,体现归一归整的期权价格隐含波动率信息。


集成估值模型通过加权合成,兼具传统同质性提示优势与域适应能力。其超参数根据训练集和测试集交叉验证最小化RMSE自适应优化。[page::15][page::16][page::10]

---

5. 风险因素评估



报告中明确假设及潜在风险包括:
  • 波动率估计误差风险:波动率标量$\rho$估计依赖过去20日历史数据或参数模型,若市场结构骤变,估计误差可能导致模型失效。
  • 近似表达误差:(3.1)等式是近似,适用范围受限,尤其在行权价、剩余期限大幅偏离时误差扩大,对标价准确性构成挑战。
  • 数据驱动模型泛化能力风险:尽管部分采用跨市场设计,实际输入特征分布差异及极端市场状况仍可能导致模型性能显著下降。
  • 未考虑宏观经济及基本面变量:报告特意排除宏观变量,虽然增强了模型透明度和解释性,但可能遗漏重要风险提示信号。
  • 模型超参数调优限制:XGBoost超参数调优未表现显著改进,可能暗示模型结构局限或数据特性约束。


报告对此通过集成模型,灵活赋权及多源数据训练予以部分缓解,且通过异常期数据检验模型稳健性。[page::11][page::12][page::18][page::19]

---

6. 批判性视角与细微差别


  • 报告核心创新依赖于对波动率标量的定义及其估计,然而,现实市场波动依赖多因子、跳跃、以及极端事件,单一波动率尺度可能不足以捕捉全部复杂性。
  • 域适应模型虽改善不同资产间推广性,但隐含假设市场“不完全异构”,而在极端不同市场之间仍可能不适用。
  • 近似公式和理论结果严谨,但实际交易环境受流动性、交易机制、市场行为影响较大,未完全包含在模型设计。
  • 报告疏于大规模跨市场实证,仅限于印度两个高流动指数,普适性需进一步验证。
  • 模型未涉及衍生品交易的对冲策略设计,应用于实际风险管理仍有较大跨度。
  • 报告在致谢和声明部分体现了良好的学术规范和多机构支持,增强了可信度。


---

7. 结论性综合



本文系统提出并验证了一种基于波动率标量$\rho$及隐含波动率近似的公共表示空间数据驱动期权定价方法,通过以下几个关键贡献:
  • 明确提出且理论证明了在风险中性概率测度下,通过$\rho$-缩放过程实现不同风险资产的归一化定价等价性,扩展了经典同质性提示模型的适用范围。
  • 利用隐含波动率近似公式(Bharadia等[1]),构建跨市场的共同表示空间,赋予数据驱动期权定价模型更强领域适应能力。
  • 提出域转移指数DSQ,设计融合传统$\mathcal{A}{HH}$模型与新域适应模型$\mathcal{A}{DS}$的动态集成学习方法,显著提升了异常市场情境(如COVID-19期间)的预测准确性。
  • 通过对印度NIFTY 50与NIFTY Bank指数期权5年多数据的实证验证,结合典型与非典型测试集,充分展示了理论方法与集成模型的稳健性和泛化能力。
  • 利用合成GBM数据测试,证实集成模型在极端波动率场景优于单一方法,验证了鲁棒性设计的有效性。
  • 模型设计兼顾无宏观经济指标、可解释性强、简单且实施效率高,为期权定价领域提供了一条理论与实证结合的创新路径。


综上,报告不仅深化了数据驱动期权定价的理论基础,也提出了实际操作性强、具市场韧性的模型解决方案,对量化金融领域特别是领域适应研究具有重要参考价值。

---

图表展示示例


图1: 误差热力图和散点图清晰展现了不同波动率配对下近似隐含波动率等式的误差,证明其在常见市场环境有较好准确性。图1

图5: 预测残差的直方图,显示了集成模型在典型与非典型市场下均优于单一模型的表现,说明消除了不同模型的极端预测偏差。图5

图6: 集成权重参数$(\lambda1, \lambda_2)$的RMSE等高线,揭示了不同市场环境中集成模型的最优配置区域。图6

图7: 合成数据上各模型随着波动率增加的预测误差对比,呈现域适应模型与集成模型在高波动环境中的优势。图7

图8: 不同训练数据下,三种方法在合成数据上的RMSE趋势及集成模型参数,验证集成方案的泛化能力和稳定性。图8


---

参考文献标识



[page::0]–[page::23](全文逐页引用,具体参考报告原文页脚)

报告