`

Modeling Stock Return Distributions and Pricing Options

创建于 更新于

摘要

本报告基于S&P 500历史数据,提出截断股票收益遵循$q$-高斯分布(方差混合正态分布)且极端收益计数适合用负二项分布建模,构造了广义跳跃扩散模型并推导显式期权定价公式,通过SPY实际数据验证模型能够产生隐含波动率微笑特征,尽管与市场隐含波动率存在偏差,反映市场对未来波动性的预期差异[page::0][page::1][page::5][page::8][page::10][page::11]

速读内容

  • 实证发现S&P 500日收益在去除极端值后,截断收益的$q$-Q图呈线性,Kolmogorov-Smirnov检验绝大多数年份接受正态性假设,支持用方差混合正态分布(VMON)建模截断收益的假设。[page::1]


  • 截断收益的偏度均值约为-0.0375,略向左偏;峰度均值约为2.88,偏平峰,可能受截断影响。截断收益的年度标准差存在较大差异,重叠性较弱,但相近年度差异较小。[page::3][page::1]


  • 使用截断收益数据拟合$q$-高斯分布,采用最大化拟合优度估计参数$q=1.43$,该分布是方差混合正态分布的代表,理论与实证分布吻合较好;其对应的混合标准差为$\chi^2$分布变量的函数,与实际标准差数据走势匹配。[page::5][page::6]


  • 对极端收益的年计数分析显示,其均值10.5远小于方差43.2,存在过度离散现象,不满足Poisson模型假设,负二项分布更合适,拟合参数$\hat{p}=0.244$,$\hat{\gamma}=3.4$。负二项分布可视为Poisson参数$\lambda$服从伽马分布的混合。[page::5][page::7]


  • 构造广义跳跃扩散(GJD)模型,将经典Merton跳跃扩散中固定波动率与Poisson跳跃计数改为$q$-高斯混合波动率和伽马混合率的Poisson跳跃。基于此提出明确的欧式看涨期权定价公式,结合经典Black-Scholes模型表现。[page::8]

- 实证以SPY期权市场数据(2024年起17年样本)为基础,模型参数通过最大似然和矩估计获得。模型产生期权价格带有隐含波动率微笑,且较Black-Scholes模型价格略高。市场价格与模型价格比较显示:短期到期时两者均高估平值期权价格,长期下模型对深实值期权价格有较高低估,显性价格与隐含波动率呈现较为明显及对称的微笑特征,市场隐含波动率则右移随期限拉长。[page::8][page::10][page::11]

  • 结论指出,市场隐含波动率对未来波动率有一定预期作用,但无法完整预测非预期极端事件。GJD模型能够反映极端事件可能性,故波动率估计偏高,市场稳定期隐含波动率低于模型预测,崩盘后情况反转,与以往文献对比一致。[page::9]

深度阅读

深度解析报告:《Modeling Stock Return Distributions and Pricing Options》——Xinxin Jiang (2025年3月12日)



---

1. 元数据与概览


  • 报告标题: Modeling Stock Return Distributions and Pricing Options

- 作者: Xinxin Jiang
  • 发布日期: 2025年3月12日

- 研究领域及主题: 股票收益分布建模与期权定价,涵盖统计分布、跳跃扩散模型及其在金融中的应用。
  • 核心贡献与信息:


报告提出股票对数收益率,在经过截断后,可以用一种特殊连续混合正态分布——$q$-高斯分布($q$-Gaussians)进行建模。同时,极值回报出现的次数可以用负二项分布更好地刻画。基于此,作者对经典Merton跳跃扩散模型进行了推广,即将波动率$\sigma$视作随机变量(方差混合布朗运动),并将跳跃次数从单一的泊松过程换为负二项过程,从而建立了更灵活的随机过程模型,并给出了该模型下的显式期权定价公式。
  • 报告目标: 为解决传统Black-Scholes模型基于常态假设的缺陷,特别是无法捕捉厚尾、波动聚类等特点,通过统计分析和理论建模,提出更符合市场实际的跳跃扩散模型,并用实际数据验证其有效性及应用于期权定价。


---

2. 逐节深度解读



2.1 引言


  • 关键论点: Black-Scholes模型依赖对数收益率服从布朗运动的假设,但实证中显示收益分布具有厚尾、波动聚类、杠杆效应等现象,黑板和斯科尔斯模型的局限性明显。

- 已有改进模型: 如Merton模型中引入泊松跳跃过程以描述价格突变。
  • 本文贡献: 模型的两方面推广:

1. 波动率$\sigma$转为随机变量,服从方差混合的布朗运动模型,映射出$q$-高斯分布。
2. 跳跃次数由泊松过程推广为负二项过程,允许事件频率的可变异,反映极端事件的过度离散现象。

这种基于统计实证分析的理论建模结合,推动了期权定价模型向更符合市场现实的方向发展。文章结构明晰,先做实证验证,再建立模型,并展示期权价值计算公式及实证应用。

---

2.2 第2章:股票日收益率分布的实证分析



2.2.1 数据来源及处理
  • 使用了1928年至2023年9月的S&P 500指数收盘价,约24029条记录,计算日对数收益率$DRn = \ln S{n+1} - \ln Sn$,共选取95年数据,每年252个交易日共计23940条收益率数据,剔除最新数据以确保样本稳定。

- 留意到数据中有313个确切0收益,占比1.3%,考虑到收盘价为离散变量,选择将零收益包含在分析中。
  • 关键统计步骤

- 每年252个数据,以箱型图经典异常值标准($Q1 - 1.5 \times IQR$,$Q3 + 1.5 \times IQR$)将数据分为截断部分与异常值(即“跳跃”)。

2.2.2 对截断收益率的分析
  • 对每年截断收益率做正态性检验(Kolmogorov-Smirnov),绘制$p$值和距离的直方图(见图1),结果显示大部分年份截断数据无法拒绝正态性假设,$p$值较大且Kolmogorov-Smirnov距离较小,提供了截断数据近似正态的初步证据。

- $q-q$图(图2)进一步印证数据与正态分布的高线性拟合。
  • 截断收益率的偏度与峰度(图3)显示偏度平均为-0.0375,略偏左,峰度均值2.88略低于3,反映截断效应抑制了厚尾性。

- 年度截断收益率标准差分布(图4)显示方差在时间上有显著差异,且近年间差异较小,$F$检验对多对年份方差不等的对偶产生统计显著性,意味着截断收益率的年方差非恒定。
  • 验证箱型图异常值界定区间的合理性(图5),多数年份异常值概率低于1%,表明该界定较合适。


2.2.3 对异常值(跳跃)的分析
  • 1001条异常日志收益,约占5%,其年计数平均值为10.5,方差43.2,明显出现方差大于均值的过度离散特性,不满足泊松分布均值方差相等假定。

- 解释可能为市场连续的“冲击效应”(如9/11),或预期事件驱动因素,泊松独立而均匀的建模不足。
  • 拟采用负二项分布对计数变量建模,能体现参数波动的复合泊松结构。


2.2.4 截断收益率与方差混合正态(VMON)模型
  • $q$-高斯分布是方差混合正态的实例,具有广泛的物理和金融应用背景。

- $q$-高斯的基本形式、正则化常数$C
q$、幂指数函数$eq(x)$详细定义,并讨论其与$t$分布及卡方混合模型的联系。
  • 估计$q$值困难,利用变换$\lnq(eq^{-\beta z^2})$与$z^2$线性关系拟合获得最优$q$。

- 本文截断数据估计得$q=1.43$,远大于1(正态对应),确认厚尾性质。
  • 实证中剔除1.36%的零收益,数据中心化。

- 实测截断收益率的经验密度拟合$q$-高斯密度良好(图7)。
  • 估算的混合密度$fV(v;q)$(用于波动率分布)与截断收益率标准差年分布重合良好(图8)。


2.2.5 异常值计数与负二项分布
  • 负二项分布可视为泊松分布参数$\lambda$的Gamma混合,适合过度离散计数。

- 使用矩估计法,获得参数$\hat{p}=0.244$,$\hat{\gamma}=3.4$,适合年级别数据。
  • 计数的概率质量函数(pmf)与样本直方图相近(图9左上与右上)。

- q-q图(图9下半部分)显示抽样的负二项分布与真实计数吻合较好。
  • 参数转化为Gamma分布形参数和速率参数$s=\gamma=3.4$,$\tau=p/(1-p)=0.3227$。

- 对日度数据,形参按交易日除以252调整,速率参数保持不变。

---

2.3 第3章:股票价格动态与期权定价公式


  • 模型构建:


将扩展的随机过程定义为:

$$
\frac{d St}{St} = \mu dt + \sigma dBt + (J - 1)dN(\lambda t)
$$

- 在此,$\sigma$服从混合分布$f
V(v;q)$描述波动率随机性(方差混合布朗运动的体现)。
- 跳跃次数$N(\lambda t)$服从混合泊松过程,$\lambda$服从Gamma分布$f\Lambda(\lambda;s,\tau)$。
- 跳跃幅度$J$假设对数服从$\log\mathcal{N}(\log m, \nu^2)$。
- 所有随机变量相互独立。
  • 模型关系与创新点:


- 若$\sigma$与$\lambda$为常数,模型退化为经典Merton跳跃扩散公式。
- 与Borland等非线性Fokker-Planck方程驱动模型相比,此处为方差混合布朗运动,依然为连续路径过程,但具有不同动态结构。
  • 期权定价公式:


定价公式为期望值积分叠加:

$$
P
{GJD}(S,K,r,T) = \int0^\infty \sum{k=0}^\infty \frac{e^{-m \lambda T} (m \lambda T)^k}{k!} P{VMBM}(S,K,rk,T) f\Lambda(\lambda; s, \tau) d\lambda
$$

其中,

$$
P
{VMBM}(S,K,rk,T) = \int0^\infty P{BS}(S,K,vk,rk,T) fV(v;q) dv,
$$

$P{BS}$为Black-Scholes价格;$vk = \sqrt{v^2 + \frac{k \nu^2}{T}}$;$r_k = r - \lambda(m-1) + \frac{k \log(m)}{T}$。
  • 意义:


期权价格通过对跳跃次数的Poisson分布加权,同时考虑波动率的随机性(混合分布),保证定价能反映厚尾与跳跃特征。

---

2.4 第4章:基于SPY数据的实证结果


  • 使用自2007年起的SPY日度数据,选前17年(共4284天)估计模型参数,结果列于表1:


| 参数 | 估计值 | 说明 |
|------|--------|------|
| $q$ | 1.4 | $q$-高斯参数 |
| $\beta$ | 14582.54 | $q$-高斯缩放参数 |
| $p$ | 0.029 | Gamma分布概率参数 |
| $s$ | 0.35 | Gamma分布形状参数 |
| $\tau$| 0.029 | Gamma分布速率参数 |
| $m$ | 0.54 | 跳跃平均倍数 |
| $\nu$ | 0.9923 | 跳跃波动率 |
  • 风险无风险利率年化4%,近似日利率$0.011\%$。
  • 选定2024年2月5日为测试日,市场与模型期权价格比较(图10)及隐含波动率比较(图11)显示:


1. 期权价格对比

- GJD模型价格略高于Black-Scholes,合理因跳跃幅度$m$接近1。
- GJD与市场均表现隐含波动率笑脸(Implied Volatility Smile),BS模型则平坦。

2. 隐含波动率及定价误差

- 短期到期(1-14日),两模型高估近价期权价格,长期则低估深度价外和价内期权。
- GJD模型隐含波动率在价内位于最低点且近似对称,市场隐含波动率随着到期时间拉长,笑脸发生右移。
  • 跳跃扩散模型及BS均未完全捕捉市场隐含波动率的动态及偏移,反映复杂市场结构超出模型假设。


---

2.5 第5章:总结与讨论


  • 通过对大样本美股指数历史数据分析,发现截断后的收益率能较好地用$q$-高斯(方差混合正态)拟合,极端收益的事件数更适合负二项分布而非泊松分布。

- 基于此,建立了波动率与跳跃率随机的广义跳跃扩散模型,并推导了显式欧式看涨期权定价公式。
  • 实证比较显示该模型生成的价格与Black-Scholes均存在高估与低估,均展示出隐含波动率的微笑现象,较传统模型更贴合市场形态。

- 但依然无法完全匹配市场隐含波动率,尤其在时间结构和偏斜度上存在偏差。
  • 市场隐含波动率在无重大新闻影响时一般低于历史波动率,说明市场对未来波动性有部分前瞻性能力,但不可预知的突发事件仍不可预测,GJD模型本质上囊括了极端事件的可能性,解释了两者的差异。


---

3. 图表深度解读


  • 图1(Kolmogorov-Smirnov检验直方图)


- 上图为各年份截断数据的正态性$p$值直方,较多集中于0.4-1,表明截断收益率分布不被拒绝为正态。
- 下图为KS距离分布,多数值集中于0.05-0.08附近,量化了与正态的接近程度。
- 结合$p$值结果,为采用方差混合正态建模奠定坚实基础。[page::2]
  • 图2(近六年截断收益的q-q图)


- 几乎所有年份的q-q图均近似成直线,说明截断收益与正态分布线性相关,截断剔除了厚尾冲击效应。[page::2]
  • 图3(截断收益偏度和峰度直方图)


- 偏度均值约-0.0375,略偏左尾,暗示截断部分收益分布轻微负偏。
- 峰度均值约2.88,略低于标准正态的3,截断削弱尾部厚度。
- 这些均值的分布反映了截断效应对分布形态的修正。[page::3]
  • 图4(年截断收益波动率标准差直方)


- 标准差分布呈长尾偏右,表明波动率在不同年份间具有显著异质性。
- 这种差异说明年内波动率非恒定,支持混合分布假设。[page::3]
  • 图5(截断界限外的数据概率分布)


- 大部分年份异常点概率小于1%,说明箱形统计方法选定的截断区间合理,能有效区分“常态”波动与极端事件。[page::4]
  • 图6(异常收益分布与计数分布)


- 异常收益绝大多数集中在零附近的薄峰,左右对称,
- 异常点年份计数分布直方类似于离散偏态分布,有较长右尾。
- 这些特征都映射出了极端收益的跳跃性质及数量分布。[page::5]
  • 图7(截断收益经验密度与$q$-高斯拟合)


- 散点为实际数据,曲线为理论拟合,重合度高,曲线尖峰明显,体现厚尾与尖峰双重特性。
- 清晰展示$q=1.43$的$q$-高斯在表达实际截断收益时的有效性。[page::6]
  • 图8(标准差直方和$q$-高斯混合分布)


- 直方图展示各年截断收益标准差,曲线为$q$-高斯理论混合波动率密度,两者形态拟合良好,支持波动率随机性模型假设。[page::6]
  • 图9(负二项分布pmf与计数比较)


- 参数估计负二项分布与异常收益年计数匹配度高。
- q-q图显示模拟负二项数据与实际计数高度线性相关,验证了负二项分布模型的合理性。[page::7]
  • 图10(不同到期时间期权价格比较)


- 绿线(市场)、蓝线(BS模型)、红线(GJD模型)对比。
- 观察到GJD模型在大部分行权价位置略高于BS,较贴合市场趋势,但存在不同时间尺度的低估和高估现象。[page::10]
  • 图11(对应的隐含波动率对比)


- GJD模型和市场均表现波动率笑脸,BS模型为平线,强调跳跃扩散模型对隐含波动率曲线的捕捉能力。
- 市场隐含波动率随着时间延长出现明显右偏,GJD模型则更对称,显示模型在动态捕捉上仍有改进空间。[page::11]

---

4. 估值方法分析


  • 报告采用的期权定价方法基于对价格过程的广义跳跃扩散模型,并利用条件期权价格的积分形式


- 对跳跃次数$k$分布(泊松混合)求和。
- 对波动率的混合密度进行积分。
- 基准价格为Black-Scholes价格,波动率和风险中性利率分项调整至跳跃状态。
  • 关键输入参数包括$q$-高斯的$q$和$\beta$,Gamma分布的$s$和$\tau$,跳跃大小的平均$m$及波动率$\nu$,无风险利率$r$。

- 该方法体现了多重随机性的结合,包括波动率不确定性和跳跃强度波动。
  • 估值依据清晰,结合统计学与金融建模,既有理论根基也贴合市场数据实证。


---

5. 风险因素评估


  • 模型风险:


- 参数估计基于历史数据,未来波动率及跳跃特性可能会发生变化,模型稳定性待验证。
- $q$估计方法非最大似然,存在一定估计误差。
- 跳跃强度的Gamma分布参数和跳跃幅度假设(lognormal)仍为理论假定,市场实际可能偏离。
  • 市场风险:


- 实际期权价格体现了广泛的市场预期与影响因素,有时比模型隐含波动率更为复杂,存在信息不对称、流动性风险等。
- 突发非预期事件难以定量纳入模型。
  • 数据风险:


- 标准差跨年波动显著,意味着方差非恒定可能影响模型拟合。
- 异常值分类依赖于截断阈值,指标灵敏度待测试。
  • 作者对上述风险有意识地进行了讨论,并指出模型无法完全捕捉市场复杂动态,特别是在期权价格与隐含波动率层面。


---

6. 批判性视角与细微差别


  • 统计假设局限: 虽然$q$-高斯与负二项混合建模具较好表现,但非参数方法未必适用于所有时间窗口,且模型对于极端跳跃的独立性假设有待详细论证。

- 模型假设: 跳跃幅度服从lognormal是假定,没有探讨其他分布可能,如双尾对称或指数分布等,可能导致拟合误差。
  • 数据处理: 将零收益纳入连续模型可能带来分布不连续性。

- 估值指标: 价格和隐含波动率对比显示模型拟合“微笑”但无法完全复制市场偏斜及动态,表明模型简化了市场微观动力。
  • 时间尺度处理: 跳跃和波动率混合的时间依赖结构没有被充分建模,克服了简单鞅假设的约束仍需进一步工作。


---

7. 结论性综合



本文系统分析与构建了包含方差混合正态截断收益以及负二项跳跃次序的股票价格动力学模型,并通过大量历史市场数据实证验证关键统计假设。核心发现如下:
  • 截断后的每日收益率可良好由$q$-高斯分布刻画,体现厚尾及波动率随机性。

- 极端收益事件次数分布体现过度离散,负二项分布显著优于泊松,反映市场跳跃的异质性。
  • 基于上述统计结果,提出广义跳跃扩散模型,将波动率视为随机变量且跳跃次数服从Gamma混合Poisson过程,取得理论清晰的定价公式。

- 实证应用于SPY期权价格,模型与传统Black-Scholes较量表现出隐含波动率笑脸,可部分复现市场现象,但仍无法完全捕捉市场对称性与动态偏斜。
  • 模型对未来隐含波动率的解释部分合理,体现市场预期与历史观测不完全对称的特点。


本研究通过统计物理方法与金融数学模型的结合,有效拓宽了经典期权定价理论的适用范围,为理解复杂金融市场波动及极端事件机制提供了新思路和工具。

---

报告的完整性和严谨性体现在对历史市场数据的细致分析、模型结构的数学推导以及实证结果的多角度比较上,提出的模型与实际市场数据均存在一定偏差,显示了理论与实际市场环境间的复杂联系和模型改进空间。

---

(参考图表见页面对应图片链接:图1~图11,所有引用均标注于对应页码)[page::0,1,2,3,4,5,6,7,8,9,10,11]

报告