`

Forecasting realized volatility in the stock market: a path-dependent perspective

创建于 更新于

摘要

本报告基于中国股市高频数据,提出了一种融合路径依赖特征的波动率预测模型家族(HAR-PD),结合长期和短期记忆特征,显著提升了波动率预测的精度和稳定性。通过实证分析,证明了HAR-PD模型家族在拟合和预测能力上均优于传统HAR模型,并在不同数据集及多个预测步长下展示出强鲁棒性,特别是基于实证分位数的HAR-PD-REQ模型与HAR-PD-RS模型表现最佳[page::0][page::1][page::18][page::23][page::24]

速读内容

  • 路径依赖波动率(PDV)模型创新点 [page::0][page::3]:

- PDV模型将波动率定义为依赖资产价格路径的泛函,捕捉长期记忆与市场趋势特征。
- 通过指数权重核函数对过去收益和波动的加权,体现不同时间尺度影响,支持调整路径依赖强度。
  • 高频波动率分解及建模基础 [page::5][page::6][page::7]:

- 波动率分解为连续成分和跳跃成分,使用实证双变异量(RBV)估计集成波动率。
- 引入极端和中度波动的分解(REX,REQ),利用正负收益阈值区分不同强度的波动事件。
  • 经典HAR与HAR-PD模型家族构建 [page::7][page::8]:

- HAR模型通过日、周、月三类时间尺度实现波动率预测。
- HAR-PD模型将路径依赖特征(趋势R1,波动特征R2)引入HAR框架,形成多种扩展模型(如HAR-PD-RV,HAR-PD-CJ,HAR-PD-RS,HAR-PD-REX,HAR-PD-REQ)。
- 引入LASSO方法防止参数过多导致的过拟合,保持模型泛化能力。
  • 实证分析:路径依赖特征在中国股市存在并显著提升预测效果 [page::10][page::11][page::12]:

- 路径依赖模型显著提高调整$R^2$,累计均方误差较非路径依赖模型低。

- 趋势特征$R{1,t}$与波动特征$R{2,t}$对波动率解释作用清晰,$R{2,t}$关联度更高。

  • 模型拟合效果与信息准则对比 [page::14][page::15][page::16]:

- HAR-PD家族模型普遍拥有更高的拟合优度和更优信息准则(AIC、BIC)表现。
  • 量化因子与策略细节:路径依赖特征构建及LASSO筛选实证 [page::16][page::17]:

- 关键因子包含滞后1、5、22日的路径依赖波动指标和跳跃特征。
- LASSO筛选保留了以$R
{2,t-1}$和$\overline{R}_{2,t-5}$为核心的稳定变量。
  • 高频波动率预测的滚动窗口与超出样本检验[page::18][page::19][page::20][page::21]:

- 多指标(MSE, MAE, HMSE, HMAE, QLIKE)和MCS测试显示HAR-PD模型在不同预测步长表现均优于传统HAR及GARCH模型。
- HAR-PD-RS在短期(日频)预测中表现最佳,HAR-PD-REQ则在中长期预测中领先。
  • 鲁棒性测试 [page::21][page::22]:

- 多种滚动窗口长度及不同样本数据(如CSI 300)均验证了HAR-PD模型的预测稳定性和优越性。
- Out-of-sample $R^2$测试大多数HAR-PD模型显著优于基准模型,表明其预测能力具有普适性。
  • 结论与展望 [page::23][page::24]:

- HAR-PD模型融合路径依赖信息显著提升股市高频波动率预测性能。
- 后续研究拟聚焦于非线性路径依赖特征及其预测表现的改进。

深度阅读

《Forecasting realized volatility in the stock market: a path-dependent perspective》详尽分析报告



---

1. 元数据与概览


  • 报告标题: Forecasting realized volatility in the stock market: a path-dependent perspective

- 作者: Xiangdong Liu, Sicheng Fu, Shaopeng Hong
  • 机构: 济南大学经济学院;西南财经大学统计学院

- 主题领域: 股票市场波动率预测,金融时间序列建模,路径依赖波动率模型(Path-dependent Volatility, PDV),高频数据分析
  • 发布时间: 未明确,但研究数据涵盖2005年至2023年

- 核心论点与目标: 本文提出了一种结合经典异质自回归(HAR)模型与路径依赖波动率模型家族(HAR-PD)的波动率预测新框架。通过引入基于资产价格历史路径的路径依赖特征,模型能更准确地捕捉金融市场波动性动态,特别是兼顾长期和短期记忆效应。文章还针对传统基于累积正态分布阈值的HAR-REX模型提出了基于经验分位数的新阈值HAR-REQ模型,实验显示后者具有更强的预测能力。基于中国股市高频数据的实证分析表明,HAR-PD家族在预测准确度和稳定性方面明显优于传统HAR模型。

作者借助统计测试(如模型置信集MCS测试)和损失函数评估方法,验证了模型的预测优越性及鲁棒性。最终提出,基于路径依赖的新型HAR-PD模型族为波动率预测提供了更丰富的理论基础与实用工具。[page::0,1,2,3,23,24]

---

2. 逐节深度解读



2.1 摘要


  • 关键论点: 将HAR模型与路径依赖波动率(PDV)模型结合,挖掘长期和短期记忆特性,提出基于经验分位数阈值的HAR-REQ模型,实证验证HAR-PD族在中国股市的高效波动率预测表现。[page::0]


2.2 引言


  • 理论基础综述: 传统的波动率模型分为常数波动率、局部波动率和随机波动率模型(如Black-Scholes, Dupire, Heston),但难以捕捉复杂市场如波动率微笑等特征。

- 路径依赖波动率模型(PDV)介绍: Foschi和Pascucci(2008)引入PDV模型,强调波动率依赖于资产价格的历史路径,适应市场的非线性动态和极端事件敏感性。后续学者结合粗糙Heston模型拓展了路径依赖特征,增强了对"Zumbach效应"的捕捉。
  • 主流高频模型及其局限: ARCH、GARCH及其扩展难以处理长期依赖和高频交易动态。通过引入实现波动率和HAR模型整合多时间尺度波动,改进预测能力。特别是引入跳跃(jump)、正负半方差(realized semivariance)、以及极端波动成分,增强模型对市场非对称性风险的刻画。[page::1]
  • 本文贡献三点:

1. 实证表明中国股市存在明显路径依赖特征,有助于解释波动率行为。
2. 提出基于经验分位数的新阈值HAR-REQ模型,提升预测精度。
3. 建立路径依赖扩展的HAR-PD系列模型,在多个时间粒度上展示卓越预测表现及鲁棒性。[page::1,2]

2.3 理论框架


  • 模型基础: 资产价格满足包含漂移、波动和跳跃成分的随机微分方程(SDE),并运用二次变差(Quadratic Variation, QV)理论界定整合波动率及其跳跃贡献。

- 实现波动率(Realized Volatility, RV): 定义为高频数据的日内平方收益率之和,收敛于QV,成为波动率的无偏估计器。
  • 路径依赖模型表达式: 价格波动率σt依赖整个历史价格轨迹 \( Su, u \leq t \) ,而非单一当前价格,纳入移动平均和历史极值等多个路径相关变量,捕捉广泛的市场记忆和情绪影响。

- 路径依赖下的两大核心特征:
- 趋势特征 \( R{1,t} \):带权重的过去收益的加权和,反映长期价格趋势。
- 波动特征 \( R
{2,t} \):带权重的过去收益平方和,突出短期价格波动。[page::2,3,4]

2.4 实现波动率的分解


  • 连续与跳跃成分分解: 利用跨乘变差(RBV)稳定估计整合波动率,差值RV-RBV则用于度量跳跃成分,辅以Huang和Tauchen提出的Z统计量检测显著跳跃。

- 半方差分解: 正向和负向实现半方差分别捕捉价格上升和下降带来的波动风险,被证明对风险管理尤为重要。
  • 极端及中间波动分解: 用累积分布函数(CDF)设置阈值将波动率细分为负极端、正极端和中度三个部分。文中创新采用经验分位数替代正态假设阈值,更适合具有厚尾和偏斜特征的金融收益分布。[page::5,6,7]


2.5 波动率预测模型构建


  • 基准HAR模型: 包含日、周(月)三个时间尺度的实现波动率滞后项线性组合,体现市场异质性和多周期动力学。

- 模型扩展:
- HAR-CJ模型添加跳跃与连续波动分量。
- HAR-RS模型引入正负半方差以捕捉波动非对称性。
- HAR-REX及HAR-REQ模型基于极端及中间波动分解,后者采用经验分位数改进阈值选择,预计提供更优预测性能。
  • 路径依赖HAR-PD模型族: 将路径依赖趋势和波动特征引入HAR模型框架,形成HAR-PD-RV、HAR-PD-CJ、HAR-PD-RS、HAR-PD-REX、HAR-PD-REQ等规格,全面吸收路径依赖信息以提升预测能力。[page::7,8,9]
  • 模型复杂度控制—LASSO方法: 为防止路径依赖变量带来的过拟合风险,引入LASSO正则化,利用交叉验证选取最优惩罚参数,既保持预测能力又降低模型复杂度。[page::9]


---

3. 图表深度解读



3.1 图1 指数核函数(Exponential Kernel Function)


  • 说明: 图1展示不同衰减参数λ(0.5,1.0,2.0,4.0)下的指数加权核函数 \( K{\lambda}(\tau)=\lambda e^{-\lambda \tau} \) 的衰减特性。

- 解读: λ越大,权重越集中近期数据,迅速衰减,强调短期波动;λ越小,历史路径影响延续更久,体现路径依赖和长期记忆效应。该图为路径依赖模型中趋势和波动特征权重设计提供直观支持,并指导模型对不同市场环境的适应策略。[page::4]



---

3.2 图2 路径依赖与非路径依赖波动率预测的累计均方误差对比


  • 说明: 图2比较采用路径依赖模型与非路径依赖模型对中国股市多个指数(如SSE, CSI300等)进行的累计均方误差(MSE)表现。

- 数据趋势及对比:
- 路径依赖模型所对应的MSE曲线明显低于非路径依赖模型,且在市场重大事件(2007年牛市拉升,2015年股灾)期间,差距尤为显著,显示路径依赖模型对波动异常变化的捕捉更灵敏。
- 各指数基本呈现类似趋势,验证路径依赖特征在不同金融资产上的普适性和稳定性。
  • 文本联系与结论: 作者指出,路径依赖模型显著降低预测误差,有效利用价格历史轨迹信息,提升了对市场突然波动的适应能力,验证了路径依赖假说在中国股市的实证有效性。[page::10]




---

3.3 图3与图4 SSE波动率与路径依赖特征关系


  • 图3(趋势特征 \( R{1,t} \) 与实现波动率):

- 散点图显示随着 \( R{1,t} \) 正向增加,实际波动率迅速下降后趋于平稳。
- 颜色深浅表示对应波动特征 \( R
{2,t} \) 值,波动率异常大时颜色较热,说明波动特征提升波动率大幅度波动。
  • 图4(波动特征 \( R{2,t} \) 与实现波动率):

- 体现实现波动率随 \( R
{2,t} \) 线性增长,且对于给定波动特征值,较低趋势特征时波动率偏高。
  • 解读: 充分显示路径依赖特征的非线性和交互影响,强调趋势特征与波动特征的互补作用,有助于解释波动率集群和非对称性现象。[page::12]





---

3.4 图5 各路径依赖模型残差的自相关函数(ACF)


  • 说明: 图5展示SSE及其他5个指数在模型 \( M1 \sim M5 \) (不同路径依赖型模型)下残差的自相关函数。

- 解读:
- 模型 \( M3 \)(仅趋势特征)残差呈显著自相关,说明遗漏关键动态成分。
- 模型 \( M
2 \)(包含波动特征 \( R{2,t} \))显著减少残差自相关,表明波动特征对解释波动动态占主导地位。
- 其余模型整体均落在置信区间内,表明对数据序列动态表现出良好拟合。
  • 意义: 该结果强化路径依赖中波动特征的关键作用,进一步支撑模型构建中重视波动特征的合理性。[page::13]




---

3.5 表1 路径依赖与非路径依赖参数估计比较


  • 内容: 对比路径依赖模型(含趋势和波动特征)与非路径依赖模型的参数估计与调整后 \( R^2 \) ,涵盖多个中国股市指数。

- 关键数据点:
- 所有股票指数中,路径依赖模型的调整 \( R^2 \) 显著高于非路径依赖模型,最低为 0.129 (非路径依赖模型的最低拟合),最高甚至接近0.8。
- 参数的统计显著性良好,表明趋势特征和波动特征均对波动率有显著解释能力。
  • 理论含义: 路径依赖特性显著提升模型拟合度,证实考虑价格历史路径对提高波动率建模有效性的重要作用。[page::11]


3.6 表4与表5 HAR及HAR-PD系列模型参数估计


  • 表4: 传统HAR模型(HAR-RV、HAR-CJ、HAR-RS、HAR-REX、HAR-REQ)参数估计

- HAR-RS模型取得最高调整后 \( R^2=0.581 \) ,说明基于正负半方差的分解在传统HAR框架中提升显著。
  • 表5: 路径依赖HAR-PD系列模型参数估计

- HAR-PD-RV、HAR-PD-CJ等模型调整后 \( R^2 \) 显著优于对应传统模型,例如HAR-PD-RV调整 \( R^2=0.503 \) 接近HAR-RS等。
- 多个路径依赖参数显著,表明趋势和波动特征均有效解释实现波动率。
  • 总结: HAR-PD模型在参数统计显著性与拟合优度上均优于传统HAR,凸显路径依赖特征对提升模型表现的贡献。[page::15,16]


---

4. 估值分析(模型建构与评价指标)



本文核心并无传统金融估值分析,而更聚焦时间序列波动率建模。重点位于模型预测能力的提升和评估:
  • 估计方法: 最小均方误差(MSE)最小化、基于损失函数的估计。

- 路径依赖权重构建: 通过指数核权重对过去波动率相关指标加权,引入多时间尺度信息。
  • 模型选择: 使用LASSO正则化避免过拟合,动态调整模型复杂度。

- 预测评价指标:
- 多元损失函数:MSE、MAE、HMSE、HMAE、QLIKE,多角度评价预测误差和分布匹配度。
- 模型置信集(MCS)测试:采用Hansen et al.方法,通过残差对比判断模型预测能力优劣与统计显著性。
- 滚动窗口预测:动态训练与预测,保证样本稳定性和现实预测环境拟合。
- 样本内外拟合及多数据集测试,验证模型的泛化能力和鲁棒性。

整体方法严谨,涵盖理论推导、参数估计、统计测试和实践检验,满足金融统计模型构建的高标准要求。[page::9,18,19,20,21]

---

5. 风险因素评估



报告中未专门开辟风险因素评述章节,但从实证与理论分析隐含可提炼以下风险点:
  • 数据噪声与市场微结构噪声: 虽选择五分钟间隔数据降低微结构噪声影响,但仍可能影响RV精度。

- 模型复杂性与过拟合风险: 路径依赖模型引入大量新特征,若无适当正则化,可能导致过拟合。
  • 结构变化与事件驱动特征: 2007及2015年市场剧烈波动事件表明市场结构变动对模型稳定性构成挑战。

- 假设分布偏离问题: 传统用正态分布设定阈值存在失真,报告采用经验分位数缓解,但依赖样本分布稳定性。
  • 非线性捕捉不足: 文末提出HAR及HAR-PD模型对高频数据非线性波动捕捉仍有限,未来工作聚焦此问题。


报告对上述因素考虑充分,引入LASSO等机制控制模型规模,并用多期滚动检验和多指标评估强化结果鲁棒性,减弱风险发生影响。[page::24]

---

6. 批判性视角与细微差别


  • 创新性与理论贡献清晰,方法严谨,实证充分。 创新将路径依赖特征引入HAR框架,强化了长期与短期波动信息整合。

- 模型复杂度管理得当,结合LASSO避免过拟合,实证结果显示出预测精度稳步提升。
  • 样本仅限中国股市,虽然数据丰富,但市场结构特殊,新模型在其他市场(国际成熟市场)适应性尚缺验证。

- 路径依赖模型虽强化预测能力,但未充分解决极端事件下非线性和高阶波动结构,作者明确指出后续研究焦点所在。
  • 对预测误差统计分布的敏感性及模型参数稳定性的长期动态评估相对欠缺,未来可扩展动态贝叶斯框架考虑模型不确定性。


整体而言,观点谨慎且科学,报告未过度渲染路径依赖效应,结论表达恰当并附有完善论证。

---

7. 结论性综合



本文构建了基于路径依赖视角的HAR-PD波动率预测模型族,系统引入趋势 \( R
{1,t} \) 和波动特征 \( R_{2,t} \),并结合跳跃、半方差以及极端波动分解,提出创新的HAR-REQ模型以经验分位数替代累积正态阈值。通过对多个中国股市指数2005-2023年五分钟高频数据的实证研究,本文显示:
  • 路径依赖特征显著提高了波动率的拟合度和预测能力,调整后 \( R^{2} \) 显著优于传统HAR及GARCH模型。

- 通过LASSO正则化确保模型控制好复杂度,防止过拟合且稳健性强。
  • 多指标(MSE, MAE, QLIKE等)和MCS统计检验全面验证HAR-PD系列模型在样本内及样本外预测一致优异表现。

- HAR-PD-RS模型当日波动预测最优,HAR-PD-REQ模型中、长期(5步及22步)波动预测表现最佳,彰显路径依赖框架下多尺度信息整合优势。
  • 实证期间市场重大的牛市泡沫期和暴跌期,路径依赖模型表现尤为突出,有效捕捉了市场非线性波动特征。


报告尾声指出,虽然HAR-PD改善显著,但传统HAR及其路径扩展尚难以完美刻画高频数据的非线性波动,未来研究将聚焦非线性模型的建构和预测能力提升,以拓展路径依赖框架的应用边界。

综上,本文在金融波动率建模领域贡献一套理论缜密、实证坚实且应用广泛的路径依赖预测框架,为投资风险管理及量化交易提供强有力工具,具备重要学术及实务意义。[page::23,24]

---

总结



本报告围绕路径依赖波动率预测展开,深入剖析了论文的理论框架、模型创新、实证设计以及预测效果。通过展现模型在中国股市高频数据上的卓越表现,强调路径依赖特征对金融波动性动态捕捉的价值。附带的多张图表从经验分位数阈值函数、预测误差、模型残差、参数显著性等角度多维度佐证了理论与实证的契合,数据与模型设计紧密呼应。整体而言,报告科学严谨,视野宽广,对波动率建模创新具有示范意义。同时明确提出非线性建模是下一步关键发展方向,指明未来研究路径。

---

报告