`

Probabilistic Predictions of Option Prices Using Multiple Sources of Data

创建于 更新于

摘要

本文提出了一种基于模块化近似贝叶斯推断框架的方法,融合日度收盘价收益率、高频波动率指标及期权价格三类信息源,避免了对期权定价误差的直接建模。方法利用理论期权定价模型(如Heston随机波动率模型)作为模拟器,通过高效的高斯混合模型近似实现参数后验分布与期权价格概率预测的快速更新。仿真和实证结果均表明该方法在面临定价误差和模型失配时依然能保持良好预测性能,尤其适用于短期期权价格的实时预测 [page::0][page::2][page::4][page::7][page::14][page::17][page::25][page::28]

速读内容

  • 多信息源融合的贝叶斯推断框架 [page::1][page::2][page::4][page::7]:


- 结合日度场内收益率、五分钟高频波动率测度、期权市场价格数据建立理论模型对应的有向无环图(DAG)。
- 通过“切断反馈”(modularization)技术将模型分为两个模块,一是波动率相关参数,二是风险溢价及期权定价参数,避免统计模型失配影响参数推断。
  • 理论期权价格及统计模型挑战 [page::3][page::4][page::6]:

- 采用经典的Heston随机波动率模型作为定价理论,价格表达式利用风险中性概率和特征函数反傅里叶计算,期权价格与标的资产价格及潜变量波动率相关。
- 实际市场中期权价格存有复杂的定价误差与非加性偏差,传统需对这些误差建立复杂统计模型,且常假设误差均匀加性,存在显著局限。
  • 模块化近似贝叶斯推断算法设计 [page::9][page::10][page::12]:


- 使用理论模型作为模拟器生成伪数据并提取摘要统计,避免对高频测度及期权价格误差建立统计模型。
- 采用软切割(soft cut)技术以灵活划分信息流,允许期权数据影响参数推断,但不完全依赖于误差模型假设。
- 近似后验通过高斯混合模型拟合参数与摘要统计联合分布,实现高效采样。
  • 量化因子:摘要统计的选取和作用 [page::15][page::16]:

- 对日收益率使用收益分布矩及辅助GARCH模型得分统计量。
- 高频信息提取跳跃稳健的双乘积波动率(bipower variation),用于隐含波动率进程识别。
- 期权价格以Black-Scholes隐含波动率曲面为基础,构造曲面梯度及曲率等多阶矩统计量,捕获风险溢价信息。
  • 数值模拟:基于Heston模型的表现验证 [page::17][page::18][page::19]:



| 参数 | 真实值 | 模块化ABI后验峰度 | 传统ABC后验峰度 |
|-------|--------|--------------------|-----------------|
| θ | 0.03 | 更收敛且紧凑 | 较宽松 |
| κ | 18 | 更集中于真实值 | 分布较宽 |
| σ_v | 0.03 | 收敛速度快 | 后验较分散 |
| λ | -7 | 峰值更接近真实值 | 后验更发散 |
- 模块化ABI方法后验分布更精确集中,表现优于传统ABC。
  • 预测性能与鲁棒性分析 [page::19][page::20][page::21][page::22]:

- 在无误差、存在计量误差及定价误差的不同条件下,模块化ABI预测置信区间覆盖率更接近标称水平,优于传统ABC。
- 与需指定统计模型且计算复杂的模块化MCMC对比,模块化ABI在预测质量相似的情况下,计算速度快数千倍。
- 当定价误差模型被误设时,模块化ABI避免模型误差,仍保持合理预测力,实用性强。
  • 实证应用:标普500指数期权价格预测 [page::24][page::25][page::26]



- 收集2004-2021年标普500指数日收益率、高频波动率测度及六个月以内资金时长期权数据。
- 滚动窗口估计Heston模型参数,参数随市场波动和危机事件显著变动,模型虽失配但预测仍有效。
- 预测覆盖率整体略偏低,但短期期权预测覆盖较优,尤其是当期权到期日接近时。
- 预测精准度对不同的期权“价内价外”状态及到期时间敏感。
  • 方法总结与未来研究方向 [page::28]

- 本文方法绕开了误差统计模型的繁杂假设,利用ABC和模块化思想实现对期权价格的快速概率预测。
- 在保留理论期权模型解释力的同时,显著提升推断与预测的计算效率和鲁棒性。
- 未来可结合更复杂的随机跳跃和多因素定价模型,扩展摘要统计设计以捕获更丰富结构信息。

深度阅读

金融研究报告详尽分析报告



报告标题:Probabilistic Predictions of Option Prices Using Multiple Sources of Data
作者:Worapree Maneesoonthorn, David T. Frazier, Gael M. Martin
发布机构:未明确说明,日期:2024年12月3日
主题:基于多源信息的期权价格概率预测的新型模块化近似贝叶斯推断方法

---

1. 元数据与概览



本报告聚焦于如何利用多种不同数据源(包括每日现货收益率、高频现货数据及期权价格)对未来期权价格进行概率预测。其核心贡献在于提出一种模块化近似贝叶斯推断框架,该框架:
  • 能够快速计算期权价格的概率预测;

- 利用理论期权定价模型直接作为数据生成机制,避免必须指定复杂且容易误判的统计模型以链接理论价格及实盘价格;
  • 展示了方法即使在未显式将价格误差纳入模型的情况下,也对价格噪声具有鲁棒性。


该方法在以著名Heston随机波动率模型为基础的情境下,对短期期权市场价格的实时快速预测效果显著。

关键词涵盖“多信息源”、“近似贝叶斯推断”、“模块化推断”、“随机波动率模型”、“期权定价”等,显示研究跨越金融建模与先进统计推断技术的结合。[page::0]

---

2. 逐节深度解读



2.1 引言(第1页)



报告强调期权价格预测的复杂性。尽管已有众多基于随机波动率及跳跃成分的理论定价模型(例如Bates 1996, Pan 2002),这些模型在解释实际市场价格时仍存在不足:
  • 期权价格日内波动受多重因素影响(期权的到期时间、行权价与现货价格的相对位置——称为“货币性”、市场当日整体状态);

- 市场微观结构噪声、非理性交易行为及套利条件偏离均影响价格,无风险套利条件下的理论模型很难完全捕捉这些;
  • 统计模型通常需假设价格误差的结构,早期往往简化为加性且均匀的误差,但更复杂的误差结构被发现普遍存在(比如Almeida et al., 2023利用机器学习揭示误差功能形式随期权参数变化)。


此外,报告指出前人研究很少将三种数据源(日收益率、高频量价数据、期权价格)同时纳入推断,现有部分文献往往只有两种数据混合或使用间接指标(比如VIX在Bollerslev et al., 2011中的应用)。因此结合多信息源的重要性被强调。[page::1]

2.2 主要贡献与方法概述(第2-3页)



作者提出的核心是以模块化近似贝叶斯方法,将传统的理论定价模型作为模拟器直接用于推断:
  • 避免为期权价格观测数据指定指定统计噪声模型$f(.)$;

- 利用“cutting feedback”模块化思想避免多个模块间的信息反馈过度,既保证估计稳健又利用多源信息;
  • 该机制允许快速计算后验和预测,特别适合实时应用。


关键是以理论模型模拟数据,通过模拟得到的特征统计量(summary statistics)与真实数据的统计量比较来进行推断(近似贝叶斯计算ABC思想)。这种模拟器本质是“错配”的,但文献表明此类错配并不显著影响参数和预测质量。章节3详细介绍框架,章节4则通过仿真验证鲁棒性,章节5展示实证应用。 [page::2],[page::3]

2.3 理论模型描述与多信息源链接(第3-6页)



理论上,以随机波动率(SV)模型描述现货价格序列:
  • 设资产价格的对数为$ \ln St $,其变动遵循含波动率过程$Vt$的SDE(见公式1);

- 该SV过程受两个独立Wiener过程驱动;
  • 风险中性定价下的过程(带有风险溢价参数$\Lambda$)定义了期权的理论价格公式(公式4-5);

- 期权价格的理论表达基于风险中性预期的贴现支付,通常无法解析求解,但可基于特征函数反演技术数值计算。

多个观测信息源相互依赖:
  • 每日现货收益$rt$;

- 高频数据构造的波动率估计与跳跃度量$HF
t$;
  • 当日多个期权合约价格组成的集合$Ot$。


图1所示的有向无环图 (DAG) 表明各个潜在变量到观察变量的信息流路,由此明确了模块划分基础。三类信息分别侧重不同的潜在量,期权价格价格含有风险中性参数,有助估计风险溢价,且时间跨度覆盖了不同参数维度推广。[page::3–6]

高频数据具体例子:


  • 如跳跃稳健双乘积变差(bipower variation)$BVt$(公式7),作为整天波动率的无偏一致估计器;

- 该类指标结合历史累积统计信息对SV模型参数推断提供丰富特征。

2.4 统计模型的压力与模块化切割(第7-9页)



实现Bayesian后验需要为所有观测变量指定统计模型,例如:
  • 对高频波动率指标$HFt$,指定噪声及测量误差模型,参数为$\Psi1$;

- 对期权定价误差$Ot$,指定包括误差结构的模型$f(.)$及参数$\Psi2$。

完整后验(公式9)高度复杂且计算代价沉重,内含难解高维积分。更关键是若统计模型任一部分有误,均会影响对理论模型(及参数)的推断。

为缓解此挑战:
  • 报告采用“cutting feedback”思想(Nott et al.,2023回顾),即在后验中人为切割模块,限制信息在模块间的反馈流动(公式11);

- 具体表现为期权模块和非期权模块互不影响参数估计,实现鲁棒同时舍弃部分信息;
  • 该方法计算复杂度依然高,且彻底切割方案中期权信息无法反馈调整现货价格过程参数,实用尚欠理想。


本文提出在模块化框架下结合近似贝叶斯计算(ABC)方法替代全模型似然,赋予切割更大灵活性,并大幅提升计算速度与预测能力。[page::7–9]

3 模块化近似贝叶斯推断(ABI)方法(第9-15页)



3.1 软切割 (Soft Cut) 的思想(第9-11页)



不同于传统切割只能在固定联结结构“切割”,ABI允许在条件概率上使用虚拟“软”切割,具体方法为:
  • 数据通过摘要统计分割为$S1$和$S2$,分别尽可能信息丰富地针对分割参数$\Phi1$(如现货特征参数)和$\Phi2$(如风险溢价等);

- 联合后验分布近似为$q(\Phi2|\Phi1,S1,S2)q(\Phi1|S1)$,由灵活的条件模型定义;
  • 软切割实现参数间信息可控流动,例如允许期权信息影响现货参数,但防止期权模块反馈回高频波动率模块;

- 图2提供构成示意,显示信息流不仅局限于模块内部。

该方法充分利用摘要统计灵活定义模块间联系,消除了传统切割的结构限制和计算瓶颈。[page::9–11]

3.2 软切割后验的计算(第11-15页)



实现途径:
  • 利用理论定价模型模拟数据生成参考数据集,计算相应数据摘要统计,而非真实数据的复杂分布;

- 模拟器“错配”,因忽略了实际观测的噪声,但研究表明只要摘要足够信息丰富,推断不会有严重偏差;
  • 利用高斯混合模型对参数与统计摘要的联合分布进行拟合,通过期望最大化算法估计模型;

- 针对新的观测摘要,基于拟合的混合模型条件分布快速采样更新后验,极大节省计算资源;
  • 算法1详细列出了该模拟-拟合-采样的实现流程。


该方法相比传统ABC的接受拒绝效率极高,且避免了传统ABC大规模容忍度调试难题,同时多次模拟积累消耗也大幅降低。[page::11–15]

3.3 预测分布构造(第14-15页)



完整预测分布不可用,原因包括:
  • 预测函数依赖观测期权价格的统计模型,未做假设,无法计算密度;

- 无统计模型导致潜在波动率和现货价格的滤波及预测中断;
  • 参数后验采用软切割近似而非完全贝叶斯后验。


解决方案:
  • 采用理论期权价格作为状态变量,利用核函数将理论与观测价格匹配;

- 利用基于每日现货收益的粒子滤波方法构建未来潜在价格和波动率的预测分布;
  • 参数后验以软切割近似后验代替。


最终组合形成的预测分布只依赖理论模型核函数、粒子滤波及快速采样的软切割后验,极具实用性和效率。[page::14–15]

3.4 重要摘要统计的选择(第15-17页)



摘要统计对于预测与推断质量至关重要。基于相关前沿研究:
  • 对每日现货收益:采用收益分布的前四阶矩及基于GARCH辅助模型的得分统计量捕捉条件波动动态;

- 高频波动信息:主要使用跳跃稳健双乘子变差统计量的前四阶矩和自相关,反映潜伏波动进程的关键特征;
  • 期权价格:转化为基于Black-Scholes隐含波动率(BSIV)曲面上的统计量,包括曲面在到期时间和执行价两个方向的水平、斜率和曲率,摘要包括这些特征的前四阶矩、滞后一阶自相关及模拟-观测匹配距离。


这一多层次摘要设计兼顾理论模型参数对多个数据源的敏感性,有效捕获隐含信息。[page::15–17]

4 数值模拟及方法性能验证(第17-22页)



4.1 Heston模型下的后验推断(第17-19页)



采用经典Heston SV模型参数设置,模拟1000个交易日数据,147个期权合约每日定价:
  • 模拟数据前500天用于后验估计,后500天用于检验预测性能;

- 作者探索多种软切割反馈结构,结果图3展示最佳方案,即波动率无条件均值$\theta$由高频数据独立推断,其他参数$(\kappa, \sigmav, \lambda)$由现货收益与期权价格综合推断;
  • 与传统基于全数据直接匹配的ABC方法比较,模块ABI估计后验分布更紧凑,更准确收敛到真值(图4);

- 说明模块ABI提升了统计效率,减少过度不确定性。

4.2 期权价格预测性能(第19-22页)



通过大量对未来出样数据的1步预测进行检验:
  • 与传统ABC相比,模块ABI在覆盖率指标上更接近理论置信水平,传统ABC表现出过度宽泛的预测区间(表2);

- 与基于明确统计模型的模块化MCMC方法比较,模块ABI预测表现出高度一致的准确度,涵盖误差及微观噪声,且计算速度快数千倍(MCMC近17.5小时vsABI仅12秒)(表3);
  • 在模型误设定期权定价误差的情形下,模块ABI展现与误设定MCMC方法相当的性能,预测区间略显偏窄,予以实务中快速预测优势明显(表4)。


总结:模块ABI具备显著计算效率优势,且在多个实际干扰和误设假设下保持较高的预测准确性,尤其适合高频实时应用。 [page::17-22]

5 实证应用与金融市场预测(第23-26页)



实证以上述方式应用于美股标普500指数期权市场:
  • 数据涵盖2004-2021年,包括每日收益率、5分钟高频价格计算的双乘子变差及CBOE日终期权价格;

- 剔除成交量极低的合约,保留6个月或以下到期、行权价±20%区间内合约,合约日均数量随时间提升,从早期平均50增长至200以上(图5);
  • 使用固定500日滚动窗口做参数估计与预测,滚动更新速度极快,约12秒/次(图6展示四参数更新时间序列);

- 参数估计显示市场风险定价周期性变动及事件驱动特征(金融危机, 新冠疫情);
  • 预测实测短期合约(尤其1周及以内)预测覆盖率接近指标,长期合约覆盖率偏离较大,但整体表现仍合理(表5、6);

- 统计模型明显误设,且未显式考虑期权价格误差,预测性能仍得以保障,部分归功于方法快速实时调参机制。

实证验证方法的可用性与稳健性,为复杂市场环境下快速风险管理与定价提供现实工具。[page::23-26]

---

3. 图表与图片深度解读



图1 (第5页)



描述:展示了潜在波动率$V
t$和参数$\Theta, \Lambda$与三个观察量—日收益率$rt$、高频测量$HFt$、期权价格$Ot$的依赖关系,且节点用方框和圆圈区分潜变量和观测量。

意义
  • 该图表达了严格的因果链和条件独立关系;

- 有助划分推断模块,明确不同参数和观测数据的关联范围;
  • 突显波动率$Vt$为核心隐变量同时影响所有三个信息源;


支持第2.2节多信息源结合论述。[page::5]



---

图2 (第11页)



描述:展示软切割信息流,参数$\Theta$和$\Lambda$分别对应摘要统计组$S1$和$S2$,三种数据源的摘要统计与参数之间用虚线连接。

意义
  • 体现将摘要分割成若干非重叠部分,每部分对应不同参数模块;

- 较图1增加了“软”信息共享,允许部分信息互通而非完全切断;
  • 具体化了软切割理念,为之后的算法实现提供模型结构拓扑。


支持第3.1节软切割方法说明。[page::11]



---

图3 (第18页)



描述:展示Heston模型参数与摘要统计来源对应关系划分,$\Phi1 = \theta$ 由高频数据摘要驱动,$\Phi2=(\kappa,\sigmav,\lambda)$由收益率和期权价格摘要驱动。

意义
  • 突出参数分层管理和软切割分配策略;

- 表示“无条件方差”$\theta$相对独立,通过高频摘要信息推断;
  • 其他参数由更多来源信息综合推断,提高准确性;


风险溢价$\lambda$与期权信息相关,反映期权市场重要性。

支撑4.1节仿真模型结构设计与参数估计讲解。[page::18]



---

图4 (第19页)



描述:Heston模型四参数的后验分布对比图,实线为传统ABC后验,虚线为模块化ABI后验,均有参数真实值标注。

趋势解读
  • 模块化ABI体现明显更尖峰后验,后验方差更小,估计更精确;

- $\theta$和$\sigma
v$表现尤为显著,传统ABC后验宽泛;
  • 风险溢价$\lambda$的峰值也在正确区附近更集中。


支持模块化ABI提升参数识别力承诺,验证仿真有效性。[page::19]



---

图5 (第24页)



描述:2004-2021年间每日活跃的期权合约数(交易量>=10,行权价±20%)随时间的演变图。

趋势解读
  • 活跃合约数量明显增长,尤其金融危机后持续上升趋势明显;

- 提示市场成熟及流动性改善,提供丰富且动态的期权信息支持建模;
  • 增加的数据量对ABI方法的计算效率提出挑战,恰是其优势体现场景。


支持5.1节数据描述,强调实证规模之大。[page::24]



---

图6 (第26页)



描述:固定滚动窗口估计下四个Heston参数随时间的后验中位数曲线,风险无风险利率为平均联邦基金利率。

趋势解读
  • 无条件均值$\theta$及波动率波动幅度$\sigmav$明显反映市场波动事件;

- 持续性参数$\kappa$较高,可能因跳跃因素未建模导致估计偏差;
  • 风险溢价$\lambda$体现时变,预示市场风险补偿要求动态调整。


凸显快速在线估计能力,支持5.2节时间序列参数估计分析。[page::26]



---

4. 估值分析



报告逻辑基于内部采用Heston随机波动率模型作为结构基础:
  • 风险中性定价核心在于模型风险溢价参数$\lambda$,直接影响长期期权价格折现;

- 理论定价$Q
t(.)$用特征函数逆变换数值计算,非封闭解;
  • 估值主旨是通过贝叶斯推断确定结构参数$\Theta, \Lambda$,即模型的波动率参数和风险溢价,最终导出期权价格预测;

- 无须完全指定统计误差模型,估值强调理论模型和数据摘要的结合;
  • 通过摘要统计和软切割后验估计,实现对模型参数的高效估值;


全报告未单独提出目标价格,但估值实质为期权价格概率分布的推断和预测,关注后验分布的实时更新及准确覆盖率。[page::3-4,15-17]

---

5. 风险因素评估



报告从以下角度揭示潜在风险:
  • 理论模型误设:报告多次强调Heston模型在实证数据下存在不完整性和结构缺陷,尤其未建模跳跃成分对参数估计及预测均有挑战;

- 统计模型错配:故意回避为期权价及高频数据指定统计模型,因而存在模拟器错配风险,但通过模拟研究证明该风险对预测影响有限;
  • 价格误差未知:市场价格波动受到微观结构噪声及交易行为影响,可能导致预测区间偏宽或偏窄,尤其对于长期期权的覆盖率偏离明显;

- 计算复杂性:如若采用传统全模型MCMC方法,则计算需求极高,不适合实时预测;
  • 模块化切割的权衡风险:信息流通切断虽带来稳健性,却可能丧失期权信息用于估计现货相关参数,造成估计效率损失。


报告通过柔性软切割策略及仿真验证部分缓解了上述风险,且方法对数据更新极为灵敏,适合金融市场动态环境。[page::7-9,17-22,23-26]

---

6. 审慎视角与细微差别


  • 报告十分强调理论模型(如Heston)难以真实描述复杂金融市场,且对价格误差模型选择敏感,故采用近似贝叶斯方法避免刻画细节,折中稳健与可用性;

- 模块化与ABC方法虽提高效率,但同时带来近似误差,后验及预测精度依赖摘要统计设计的充分性;
  • 仿真结果展示模型虽跑出较好估计,但依赖参数假设和模拟设计,存在从模拟到实际的外推风险;

- 期权价格预测对中长期合约表现欠佳,反映理论模型限制及数据噪声影响,实务应用需留意;
  • 报告未涉及模型选择或不同SV模型间的比较,未来可能是扩展方向;

- 高频数据应用受限于量化指标选取,未来可引入跳变统计等以提高信息利用;

从论述框架看,报告观点谨慎且方法创新,且通过系统对比验证了方法的实用价值和性能边界。[page::1-26]

---

7. 结论性综合



该研究系统推出了一种基于多数据源的模块化近似贝叶斯推断框架,用于实时概率预测期权价格。其核心创新点为:
  • 结合日度收益、高频数据和期权价格三类信息,通过理论定价模型作为生成模拟器,避免对价格误差和高频波动率噪声构造复杂统计模型;

- 利用软切割策略灵活管理信息流,兼顾稳健性与信息利用,突破传统模块化条件概率结构的局限;
  • 通过高斯混合模型拟合模拟参数-统计联合分布,实现后验及预测的快速采样和更新,极大提高计算效率(仿真中比传统MCMC快超过4000倍);

- 应用Heston模型仿真及实证S&P 500期权,展示了短期期权价格预测的良好覆盖率和动态参数估计,证明方法实际操作可行性及鲁棒性;
  • 在包含市场波动和微观噪声的复杂环境中,预测区间保持合理,突出实时快速更新对抵御模型误设和噪声影响的作用;

- 方法框架通用,可扩展至更复杂包含跳跃和其他随机特征的结构模型,需针对不同扩展设计相应摘要统计。

综合所有图表和数值,实验结果与理论模型完美结合,验证了模块近似贝叶斯推断对于金融资产衍生品动态预测的重要意义,为大数据高频环境下金融风险管理和衍生品定价提供了可行高效的工具。[page::0-26]

---

总结:



本报告推出的模块化近似贝叶斯方法创新性地将金融市场三类核心数据有机融合,并依托理论定价机制绕开了难以建模的价格误差,利用软切割和摘要统计高效近似后验,既保证了精度,也释放了计算瓶颈,实现了实时期权价格概率预测。其高斯混合模型拟合及快速更新技术为金融工程领域实时风险管理与市场预测提供了全新范式。仿真与标普500实证结果均表明,该方法能够在复杂噪声及模型误设条件下稳定高效地工作,尤其适合短期合约预测。未来该框架有望拓展为处理更复杂金融衍生品定价模型的通用工具,对定量金融领域具有重大参考价值和实际应用潜力。[page::0-26]

报告