基于波动率分解的高频波动率预测模型
创建于 更新于
摘要
本报告基于分解模型,提出将日内高频波动率拆解为日度波动率、日内确定性趋势和日内随机项,通过两步估计方法提高高频波动率预测精度。采用美国市场上2721只股票的实证数据验证,发现联合估计参数能提升预测准确性和稳定性。国内部分以上证50 ETF数据为例,结果证明该模型优于无随机项模型及直接高频GARCH模型,展示了模型在国内市场的有效性和实用价值 [page::0][page::2][page::5][page::7][page::9][page::10][page::11]
速读内容
高频波动率预测背景与挑战 [page::2]
- 高频波动率对衍生品定价及量化策略关键,传统低频模型效果差。
- 本文借鉴乘积分解方法,将日内波动率分解为日度波动率、确定性日内趋势、随机日内波动项。
模型框架与估计方法 [page::3][page::4]
- 核心模型假设波动率为三部分乘积:$r{t,i} = \sqrt{ht si q{t,i}} \varepsilon{t,i}$。
- 采用两步估计:先估计日度波动率$ht$(多因素风险模型或GARCH),再采用历史均值法估计确定性趋势$si$,最后用GARCH(1,1)刻画随机项$q{t,i}$。
美国市场实证分析 [page::5][page::6][page::7]

- 单只股票(VLO)表现出典型日内波动率曲线,GARCH模型聚集性参数$(\alpha+\beta)$约0.814。


- 多只股票单独估计发现,交易强度高的股票聚集性参数更高。

- 按流动性分组估计参数均集中于0.9以上,表明分组估计更稳定。
模型准确性检验及比较 [page::8][page::9]
| 模式 | NSTOCH | UNIQUE | INDUST | LIQUID | ONEBIG |
|--------|--------|---------|---------|---------|---------|
| LIK 对比 NSTOCH | 0.795 | - | 0.849 | 0.831 | 0.846 |
| MSE 对比 NSTOCH | 0.618 | - | 0.725 | 0.694 | 0.738 |
- 含随机项模型优于不含随机项的NSTOCH。
- 分组估计中ONEBIG(合并估计)表现最佳。
- 以上验证了添加日内随机项和扩充样本联合估计对预测准确性和稳定性的提升。
国内市场实证与模型验证 [page::10][page::11]
- 以2017-2022年上证50 ETF分钟数据为样本。
- 采用简化GARCH模型替代多因素风险模型估计日度波动率。
- 模型预测MSE为4.637,优于NSTOCH模型(4.855)及高频GARCH模型(4.856)。
- 结果验证波动率乘积分解模型在国内市场的有效性和实际应用价值。
深度阅读
分析报告解构与详尽分析
报告标题: 基于波动率分解的高频波动率预测模型
作者及团队: 陈奥林(分析师)、张烨垲(研究助理)等,国泰君安证券研究所金融工程团队
发布时间: 未明确具体发布日期,系列报告第三十八篇
研究主题: 高频波动率预测模型的构建及其实证研究,尤其聚焦基于波动率乘积分解的模型在高频量化交易及衍生品定价中的应用
核心内容概览:
报告重点提出并验证了一种创新的高频波动率预测方法——基于将日内高频波动率拆解为“日度波动率”、“日内确定性趋势项”和“日内随机项”的乘积模型,以期实现更精准的波动率短周期预测。通过美股大样本实证数据支持该模型的有效性,在国内市场以上证50 ETF分钟数据验证了其相对于传统GARCH及非随机项模型的优越性。
---
一、引言及报告概览
报告开宗明义指出传统低频波动率预测模型对于高频(特别是日内分钟频率)波动率预测能力不足,尤其限制了高频交易策略和期权衍生品的定价能力。为解决此痛点,本文借鉴了论文《Forecasting intraday volatility in the US equity market.Multiplicative component GARCH》的模型设计,通过波动率乘积分解方法将高频波动率结构化为三个不同驱动因素,分别针对性建模,从而达到提升日内高频波动率预测效果的目的。
整体上,该模型以波动率拆解思想为核心,结合GARCH模型捕捉随机波动性,使得波动率预测更为精准且稳定。同时通过大样本多只股票的数据验证了模型的泛化能力和稳健性。这是对高频金融工程领域的技术进展,具有重要理论与实务价值。
---
二、逐节深入解析
1. 选题背景与核心结论(第2页)
- 关键点摘要:
波动率作为度量风险的核心金融量,一直受金融学界重视,但鲜有关注对高频、尤其日内波动率的研究。算法交易和期权定价等场景对高频波动率精确预测要求极高,传统基于低频数据模型难满足需求。
- 文章引用模型核心:
波动率乘积分解为“日度波动率”、“日内确定性趋势”及“随机日内波动率”三个组成部分。此分解帮助分离了日内规律性波动和随机部分,提高预测准确性。
- 核心结论概括:
(1) 乘积分解有效提升高频波动率预测精度。
(2) 使用多股票样本联合估计参数,提升预测稳定性和准确性。
[page::2]
2. 文章背景与文献综述(第2页)
- 传统GARCH模型对高频波动率预测受限,原因包括参数不一致性、模型对公告等宏观信息响应不足、市场信息消化机制复杂等。
- 现有研究尝试拆分波动率为日内与日度成分,但效果仍不理想。
- 识别出市场事件、公告对日内波动率影响不确定,本模型采用统计学方式乘积分解,绕过具体事件信息,提升模型普适性。
[page::2]
3. 文章模型设计(第3-4页)
- 模型核心假设: 日内高频收益的条件方差为三乘积形式:
$$
r{t,i} = \sqrt{ht si q{t,i}} \varepsilon{t,i}
$$
- $ht$:日度波动率(基准水平)
- $si$:日内波动率确定性趋势(反映开盘、收盘波动率高等规律)
- $q{t,i}$:随机日内波动率成分,均值为1,捕获波动率随机聚集特征
- $\varepsilon{t,i}\sim N(0,1)$:误差项独立同分布
- 两步估计方法:
- 第一步: 先估计日度方差$ht$,采用文章多因素风险模型,考虑行业、流动性、动量等因子,国内市场简化为GARCH(1,1)模型估计。
- 第二步:
1) 利用调整后收益平方均值估计确定性日内趋势$si$。
2) 在剔除$ht$和$si$影响后,使用GARCH(1,1)模型拟合随机波动项$q{t,i}$,充分捕获其聚集特征。
- 方法论评述:
分步估计避免了模型估计过于复杂的难题,通过GMM框架保证参数估计的统计一致性。实际运用时该方法简洁有效。
[page::3, page::4]
4. 文章实证分析(第5-9页)
4.1 数据说明与单只股票实证(第5-6页)
- 文章使用2000年4月至6月美国2721只股票高频数据,样本量巨大,涵盖多种市场状态。
- 以瓦莱罗能源公司(VLO)为示例,数据通过调整后显现典型的日内波动率结构:开盘波动最高,然后逐步降低,中午较低,下午再度提升。
- GARCH(1,1)模型参数 $(\alpha+\beta) = 0.814$,表明波动率聚集特征强但略低于常规水平,原因在于回报已被日度方差调整。
- 图2展示了对数收益、日度波动率、确定性日内趋势、随机日内波动率、三项乘积的时间序列闭合情况,验证了模型对波动性的拆解效果。
[page::5, page::6]
4.2 多股票估计:单独估计与分组估计(第6-8页)
- 单独估计:
股票按交易强度排序,GARCH参数$(\alpha+\beta)$随交易强度升高而增加,活跃股票波动率持久性强,流动性差股票估计稳定性差。
- 分组估计:
针对流动性差的股票,采用按行业(54组)、按流动性(50组)、统一整体分组三种策略。实证显示分组估计显著提升持久性参数至0.9以上,大幅缓解低流动性对估计的影响。
- 模型预测准确性检验:
采用对数似然损失(LIK)与均方误差(MSE)两种损失函数衡量,比较五种模型(NSTOCH无随机项、UNIQUE单只股、INDUST行业分组、LIQUID流动性分组、ONEBIG整体分组)性能。
- 核心结论:
添加随机波动率项显著提升预测性能。分组建模效果优于单独建模,且整体分组(ONEBIG)模型表现最佳,联合样本提升准确度和稳定性。
[page::6, page::7, page::8, page::9]
5. 国内市场实证(第9-11页)
- 数据样本: 上证50 ETF 2017年2月至2022年1月,共逾29万分钟交易数据。
- 模型实现: 简化日度波动率估计采用GARCH(1,1)模型而非多因素风险模型,日内趋势与随机项估计方法同文章。
- 模型有效性检验:
两个基准模型比较:
(1) 不含随机项NSTOCH模型
(2) 直接对高频数据采用GARCH模型
- 结果表现:
本模型对高频波动率的预测误差MSE为4.637,低于NSTOCH的4.855和直接高频GARCH的4.856,显示分解模型优于单一模型。
- 说明:
尽管实证只采用单只资产,因上证50 ETF流动性高且样本期长,避免了低流动的估计问题。
[page::9, page::10, page::11]
---
三、图表及数据深度解析
图1 单支股票日内收益标准差(第5页)
- 描述: 展示VLO单日内39个10分钟区间的收益标准差。
- 解读: 标准差在开盘阶段约0.07波动,到10:10左右剧烈下降,11:10到14:40期间维持较低、平稳的低波动率区间,临近15:40时波动率再次弯升。
- 意义: 反映日内波动率生命周期特征,开盘收盘期波动普遍较大,符合实务经验,也体现出日内确定性趋势项的合理性。
- 联系文本: 为波动率确定性趋势项$s_i$提供直观数据基础。
[page::5]

表1 VLO公司GARCH模型估计结果(第6页)
| 变量 | 数值 | 标准误差 | T统计量 |
|-------|-------|---------|---------|
| C | 0.0065 | 0.0204 | 0.3161 |
| (未标注) | 0.1865 | 0.0302 | 6.1835 |
| β | 0.7264 | 0.0387 | 18.7659 |
| α | 0.0876 | 0.0121 | 7.2185 |
- 解读: $(\alpha+\beta)=0.814$,指示波动率聚集效应较强且估计显著,表明经过日度波动率调整后,剩余波动具有持续性。
- 重要性: 验证波动率随机项建模合理性。
[page::6]
图2 VLO公司波动率拆解示意图(第6页)
- 描述: 上至下依次绘制对数回报、日度波动率预测、日内确定性趋势、日内波动率随机项及三乘积的平方根。
- 趋势与解读:
- 对数回报显明显波动峰谷,与高频波动率模型预测的高峰基本同步。
- 日度波动率较为平稳,显示整体风险水平波动。
- 确定性趋势表现为明显的周期性波动结构,符合日内波动规律。
- 随机项波动较大,但整体趋势平滑,具聚集特征。
- 三项乘积平方根与实际回报波动显著吻合,模型对波动率的解释力强。
[page::6]

图3 单独估计不同公司GARCH持久性参数 $(\alpha+\beta)$(第7页)
- 描述: 横轴公司按交易强度排序,纵轴GARCH模型持久性参数。
- 解读: 交易强度弱公司的$(\alpha+\beta)$参数波动剧烈,且多数远小于1,市场活跃度越高,该参数趋近于1,持久性强。
- 启示: 流动性不足导致波动率聚集效应难以准确估计,单独建模效果差。
[page::7]

图4 按流动性分组GARCH持久性参数估计(第7页)
- 描述: 将公司按流动性分组估计GARCH参数,展示各组$(\alpha+\beta)$。
- 解读: 所有分组的持久性参数均集中于0.9以上,明显高于单独估计,显示分组后模型估计更加稳定可靠。
- 意义: 分组联合估计是缓解样本不足和数据噪声影响的有效方法。
[page::7]

图5 预测准确性比较(第9页)
- 内容: 表格为不同模型两种损失函数下的“行模型优于列模型”的比例。其中:
- NSTOCH:无随机项模型
- UNIQUE:单只股票单独建模
- INDUST:行业分组
- LIQUID:流动性分组
- ONEBIG:所有公司合并整体模型
- 解读:
- NSTOCH模式最差,随机项提升显著。
- UNIQUE模型表现次之,多数情况下被分组模型击败。
- INDUST、LIQUID与ONEBIG模型表现相近,整体合并建模(ONEBIG)略优。
- 论断: 高频波动率预测需要考虑随机波动成分,且大样本联合估计有助于提高模型泛化性能。
[page::9]
---
四、估值分析
本报告为模型构建及实证性质金融工程报告,不涉及具体公司或资产估值目标价或投资评级,因此无直接估值分析部分。
---
五、风险因素评估
报告内容未专门提出风险因素评估章节,但从模型实证过程和理论设计可隐含几个潜在风险:
- 高频数据依赖市场流动性,流动性不足会导致模型参数估计不稳定,需通过分组或多样本扩大缓解。
- 两步估计虽简化计算,存在误差累积风险,尤其在极端市场状态下模型拟合或预测可能失真。
- 依赖正态误差假设可能忽略高频市场的跳跃和极端事件风险。
- 文章指出宏观事件对日内波动影响复杂且难以建模,模型不直接考虑此类外生信息,潜在局限显著。
---
六、批判性视角与细微差别
- 报告整体论证结构严密,基于赘述论文实验结果,结合国内市场数据验证,增强了说服力。
- 两步估计方法虽然有理论一致性论证,但实际存在误差传递风险,且非最优联合估计,可能影响模型精度。
- 流动性低的股票模型估计结果弹性大,这部分资产的波动率预测效果较弱,限制了模型应用范围。
- 国内市场实证选用单一资产(上证50 ETF)对模型泛化验证能力有限,且不含多资产联合估计对比,建议进一步拓展资产范围验证。
- 报告中提及“ONEBIG”大样本合并模型最优,且国外市场数据量巨大,国内市场多资产联合估计尚待尝试,提示后续研究路径。
- 对日内波动结构分解使得模型具有较强的解释性,但对极端事件的响应机制未涉猎,存在一定盲区。
---
七、结论性综合
该报告系统地介绍并解读了基于波动率乘积分解和两步估计的高频波动率预测模型及其实证成果。其核心创新在于将日内高频波动率拆分为日度波动率、确定性日内趋势和随机日内波动率三个部分,针对各部分特征分步建模,有效地提升了日内分钟级波动率的预测准确度。
具体表现在:
- 理论模型建构有效: 乘积分解方式分离波动率结构内在成分,使模型具备较好解释力,且通过GARCH模型刻画随机项实现聚集效应的拟合。
- 实证数据充分: 使用2000多只美国股票的大样本测试,结合单只及分组估计方法,证明了模型的预测精度和参数稳定性优于传统基准模型。
- 结构性趋势清晰: 图1显示波动率日内分布特征明显,支持确定性趋势项的实用必要性。
- 随机性波动显著: GARCH估计结果表明随机项聚集和持久性突出,随机项不可忽略。
- 分组联合建模提升稳定性: 尤其对低流动性股票,组合作为大样本提升了估计的锁定效果。
- 国内市场验证: 上证50ETF分钟数据实证结果显示,本模型预测时误差显著低于无随机项模型和直接分钟GARCH模型,部分验证了模型在中国市场的适用性。
综上,波动率分解模型为高频波动率预测提供了理论创新和实证支持,对高频量化策略设计及衍生品定价具有重要参考价值。建议未来工作进一步拓展多资产联合估计、考察极端市场环境下的模型表现,并结合市场事件信息增强模型动态响应能力。
---
参考图片溯源:
- 图1 单支股票日内收益标准差

- 图2 VLO公司的波动率拆解

- 图3 不同交易强度股票GARCH参数$(\alpha+\beta)$

- 图4 按流动性分组的GARCH模型估计结果

---
溯源引用页:
[page::0,1,2,3,4,5,6,7,8,9,10,11]
---
总结评价: 本报告紧扣最新高频波动率预测前沿,创新采用波动率乘积分解结合GARCH随机波动按部就班进行参数估计,理论方法成熟,实证数据丰富,兼具国外与国内市场验证,展现了方法的稳健性与适用性。对量化策略设计者、高频交易员及衍生品定价机构均有重要参考意义。