Autoencoder Enhanced Realised GARCH on Volatility Forecasting
创建于 更新于
摘要
本报告提出了一种基于自编码器的非线性降维方法,生成综合多种实现波动率指标的合成实现测度,并将其嵌入Realised GARCH模型中。在对标的美股、英股、澳股、港股等四大市场的实证分析中,所提模型在滚动单步波动率预测中均优于传统线性方法(PCA、ICA及均值合成),表现出更灵活的参数估计和更优的预测准确性,验证了非线性降维在提升合成实现测度效果中的潜力 [page::0][page::6][page::7][page::23][page::35][page::41]。
速读内容
- 研究背景与问题定位 [page::5][page::6]
- 金融市场波动率预测关键,尤其针对重大危机事件(GFC、COVID-19)中的风险管理。
- 目前存在多种实现波动率估计器,挑选合适指标对建模构成挑战。
- 研究目标:通过自编码器非线性降维合成多条实现波动率指标,提升Realised GARCH模型预测效果。
- 相关文献综述与理论基础 [page::8][page::9][page::11][page::12][page::13]
- 介绍GARCH及其扩展模型,特别是含实现波动率的Realised GARCH。
- 汇总多种实现波动率指标(如RV、RK、BV、RSV等)及其优缺点。
- 讲解线性降维方法(PCA、ICA)在多实现指标合成中的应用。
- 自编码器介绍:基于神经网络的非线性降维方法,适合时间序列特征提取。
- 模型构建与方法论详解 [page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23]
- 经典GARCH及GARCH-X模型描述。
- Realised GARCH模型包含回归方程、GARCH方程与测量方程。
- 线性合成方法PC-RealGARCH、IC-RealGARCH定义及其实现。
- 所提出AE-RealGARCH模型利用单隐藏层自编码器对多实现指标进行非线性降维编码,生成合成测度,替代单一实现测度。
- 采用带权重正则化和稀疏正则化的自编码器,防止过拟合并提高泛化能力。
- 模型参数通过最大似然估计和约束优化(SLSQP)进行估计。
-

- 数据与实证设计 [page::27][page::28][page::29]
- 选取标普500、FTSE100、澳大利亚AORD、恒生指数共计四大市场,数据覆盖2000年至2022年中期。
- 采用12种不同的实现波动率指标,作为输入生成合成指标,输入维度D=12。
- 数据样本按时间顺序划分为80%作为样本内,20%作为样本外用于预测验证。
-

- 合成实现测度及模型结构特征的样本内表现 [page::30][page::31][page::32]
- 自编码器生成的合成实现测度在统计特性上与PCA和ICA合成测度高度相似,均成功捕捉了标的市场的波动动态。
- 自编码器合成测度与绝对收益及5分钟RV的动态走势高度吻合,显示出非线性降维的有效性。
-

-

- 样本内模型参数与适配性分析 [page::33][page::34]
- GARCH-X和Realised GARCH模型采用5分RV时,模型适配优于标准GARCH。
- AE-RealGARCH、PC-RealGARCH、IC-RealGARCH、AVG-RealGARCH模型均展示稳定的参数估计,且$\varphi$接近1,表示合成测度与条件方差近似线性关系。
- AE-RealGARCH模型的负对数似然值低于其他模型,表现出更好的拟合能力。
- 定量表格展示具体参数估计结果与训练负对数似然值。
- 样本外滚动预测与表现对比 [page::35][page::36][page::37]
- 采用滚动窗口估计参数和生成预测的实证设计,有效捕捉时间序列动态变化。
- 预测对数似然值显示,AE-RealGARCH在标普500和FTSE市场预测表现最佳,澳大利亚市场次优,恒生市场表现近似均值模型。
- AVG-RealGARCH(均值合成)模型同样表现优异,优于传统线性降维方法PCA和ICA,凸显非线性方法的潜力。
- PCA和ICA生成的合成测度预测几乎一致,说明两种线性降维方法在本应用下效果相近。
- 预测波动率图显示,所有合成RealGARCH模型均能较好拟合绝对收益的波动动态。
-

- 样本外参数估计动态与模型适应性 [page::38][page::39][page::40]
- AE-RealGARCH模型参数(尤指$\omega$、$\beta$、$\gamma$)在滚动样本中波动幅度更大,显示其对市场波动敏感,具有更强的动态响应能力。
- 测量方程误差项波动率$\sigma_{\varepsilon}$也更频繁变化,反映合成测度的非线性特点及灵活性。
- PCA和ICA模型参数走势几乎重合,进一步佐证预测效果与合成测度近似。
-

- 量化因子/策略总结
- 本研报核心贡献在自编码器非线性降维构建的量化合成实现波动率因子,作为Realised GARCH中的外生变量,改善波动率预测效果。
- 因子构建方式为:以12种实现波动率指标为输入,采用单隐藏层自编码器编码至一维,通过Sigmoid激活函数实现非线性合成,最后再行范围缩放确保合成值与原始实现措施相符。
- 训练目标函数包括均方误差重建损失、权重的岭回归正则化及稀疏性正则,提升编码的稳定性与泛化能力。
- 滚动窗口回测结果显示,AE-RealGARCH策略年化收益(隐含)与夏普身体现优于线性降维和单一实现测度,无显著信息损失且更具动态调节能力。
深度阅读
报告详细分析:Autoencoder增强的Realised GARCH在波动率预测中的应用
---
一、元数据与概览
标题: Autoencoder Enhanced Realised GARCH on Volatility Forecasting
作者: Qianli Zhao、Chao Wang、Richard Gerlach、Giuseppe Storti、Lingxiang Zhang
发布日期: 未明确标注,数据覆盖2000年至2022年6月
主题: 金融市场波动率预测,结合先进统计模型及机器学习技术
核心论点与目标:
本论文提出了一种基于自编码器(autoencoder)的非线性降维方法,生成合成的Realised波动率指标,并将其嵌入Realised GARCH模型进行波动率预测。该方法基于传统线性降维(主成分分析PCA与独立成分分析ICA)存在的局限,利用自编码器深度神经网络的非线性特性,整合多个真实波动率度量(Realised measures)的信息,改善模型的预测精度和适应性。实证研究涵盖四大国际股市(S&P 500、FTSE 100、AORD、恒生指数),包括2008年金融危机和COVID-19疫情期间,结果表明该模型在一步滚动预测准确性方面优于线性方法及传统模型,体现出更强的灵活性和参数估计稳定性[page::0] [page::5-7]。
---
二、逐节深度解读
1. 引言
关键内容:
- 波动率作为衡量金融市场风险的重要指标,其预测能力对风险管理至关重要。回报率本身难以预测(市场有效假说、随机游走性质),但波动率表现出均值回复等可预测特征。
- 波动率是潜变量,无法直接观察,传统用日内平方收益率代替,但具有时效性不足缺陷。
- 随着高频数据广泛可得,提出了多种基于高频数据的真实波动率估计指标(Realised Volatility),实时捕捉价格变动,提升波动率估计的准确性。
- GARCH及其扩展模型被广泛应用于波动率建模,Realised GARCH模型将真实波动率指标嵌入模型,提升预测性能。
- 论文围绕"如何选择和利用多个真实波动率指标进行波动率预测"的研究问题,探索结合各类指标的线性与非线性降维方法,最终聚焦自编码器作为非线性降维工具[page::5-7]。
2. 文献综述
细节构成:
- 介绍GARCH模型基础及其对波动率的刻画缺陷,突出利用高频数据衍生的真实波动率指标克服该问题。
- 多种真实波动率指标详述,如Realised Variance(RV)、Realised Kernel(RK)、Bipower Variation(BV)以及分向量、偏中数估计与多尺度核估计法等,论述其特点与微观结构噪声问题。
- 真实波动率指标与GARCH模型结合发展的路径:GARCH-X的引入高频指标、Realised GARCH的测量方程、Realised EGARCH的多指标与杠杆效应扩展。
- 线性降维技术(PCA和ICA)在结合多重真实波动率指标中的应用,及其在实际波动率预测中提升准确性的案例(Naimoli et al., 2022)。
- 非线性降维方法介绍,尤其是基于神经网络结构的自编码器,对金融时序数据的降维潜力和优势,提到其在金融领域多次成功应用的前例[page::8-13]。
3. 方法论
3.1 背景模型
- GARCH-GARCH-X模型:标准GARCH基于平方收益率预测条件方差,GARCH-X用真实波动率指标替代平方收益率增强信息量,详细列出模型公式和参数限制。
- Realised GARCH模型:结合回报方程、GARCH方程和测量方程,采用对数变换确保正定波动率、引入杠杆效应项,增设测量方程映射潜在波动率与观测真实波动率关系,详细数学表达和稳定性条件说明。
- 线性降维扩展(PC-RealGARCH与IC-RealGARCH):将多个真实波动率指标矩阵通过PCA或ICA提取首个主成分或独立成分作为合成指标代替单一波动率指标,保证信息整合且降低高维问题。使用数学表达解释线性投影和尺度变换。
- 平均合成指标(AVG-RealGARCH):直接对多个指标求平均形成合成指标的简易方法[page::14-24]。
3.2 自编码器增强的Realised GARCH模型(AE-RealGARCH)
- 自编码器结构:单隐藏层神经网络结构,输入为12个真实波动率指标,隐藏层神经元数设为1以实现降维,解码层尝试重构输入数据,采用sigmoid非线性激活函数实现非线性降维。
- 损失函数及训练:采用最小均方误差(MSE)最小化输入与重构输出之间的差异,加入Ridge正则化防止权重过大,限制过拟合,并通过稀疏正则化(基于Kullback-Leibler散度)进一步加强编码层激活稀疏性,提升特征提取的稳健性。
- 模型应用:自编码器输出合成的非线性降维波动率指标,经过尺度调整后嵌入Realised GARCH模型,预测表现将与PC-RealGARCH、IC-RealGARCH和AVG-RealGARCH比较以检验优越性。
- 参数估计:利用最大似然法,对包含传统回报和真实波动率测量的联合似然函数进行估计。采用约束优化算法SLSQP确保模型稳定性条件满足。实现工具为Python与Matlab,分别用于线性方法计算和神经网络训练[page::24-26]。
4. 实证研究
4.1 数据描述
- 市场与时间:S&P 500 (US), FTSE 100 (UK), AORD (澳大利亚), 恒生指数 (香港);数据时间范围2000年1月至2022年6月。
- 变量说明:计算每日对数百分比收益率以及12种真实波动率指标(包括分向量RV,核估计RK,多尺度RK,偏幂变换等),指标通过5分钟和10分钟频率采样并结合子抽样消除噪声。
- 数据预处理:剔除非交易日,匹配时间窗口,样本量约5500天左右。
- 统计特性:收益率分布表现负偏态与峰态,真实波动率指标正偏且经对数变换后分布更接近正态。图2展示了收益率绝对值与5分钟RV的高度相关,明显捕捉历史关键金融事件波动高峰如科技泡沫、2008金融危机及COVID-19疫情[page::27-29]。
4.2 训练样本内分析(In-sample)
- 合成波动率指标比较:表2展示了4个合成指标(自编码器AE、PCA、ICA、平均AVG)在对数变换后的统计量。AE的分布特征与传统线性方法接近,PCA与ICA极为相似,表明两者提供高度相似的线性合成模式。
- 图3-4视觉对比:自编码器生成的波动率时间序列与5分钟RV走势吻合良好,显示非线性降维成功抽取主要信息。AE与PCA/平均方法的合成指标走势相似,指向潜在的预测能力提升机会。
- 模型参数估计(表3):
- GARCH-X中使用真实波动率代替平方收益率,系数α明显高于标准GARCH,说明更重视信息丰富的真实波动率指标。
- Realised GARCH相关合成指标对应参数γ均在0.36-0.38区间,显示合成指标映射潜波动率效力相似。
- 测量方程中参数ϕ接近1,指明合成指标与条件方差正比,偏置项ξ为负解释了因日内波动率与跨日波动率计算时间差异出现的偏差。
- 杠杆效应参数τ₁为负,与股票市场回报负向波动率关联经典现象一致。
- 训练负对数似然最大(最小负值)观测表明AE-RealGARCH与AVG-RealGARCH优于线性方法和基础模型[page::30-34]。
4.3 样本外预测性能(Out-of-sample)
- 预测方案:滑动窗口拟合+每日滚动预测,样本外约1100天。自编码器超参数取Matlab默认(λ₁=0.001,λ₂=0.001,ρ=0.05),计算资源限制下未做超参优化。
- 预测准确性评估:利用归一化负对数预测似然(针对收益)指标比较模型表现。
- 结果总结(表4及图5):
- GARCH-X优于标准GARCH,验证了引入真实波动率有效性。Realised GARCH模型基于同一波动率指标进一步提升预测效果。
- PCA与ICA结果几乎完全一致,说明其线性投影在真实波动率数据上的表现高度相似。
- AE-RealGARCH在S&P 500和FTSE数据上取得最好表现,在AORD排名第二,整体显著领先线性降维和基础模型,彰显非线性合成的优势。AVG-RealGARCH表现亦优于线性方法,激励进一步非线性探索。
- 视觉图中AE和均值方法拟合曲线与绝对收益吻合更好,表明更捕捉到动态波动特征。
- 参数滚动动态(图6):
- AE-RealGARCH的GARCH方程参数波动幅度远大于其他模型,体现了其对每一日波动率动态的高敏感性和更强适应性。
- 随时间β系数逐渐减少,γ逐渐增加,显示模型逐步依据真实波动率指标调整。
- 误差项标准差σε在AE-RealGARCH中波动较大,反映非线性合成指标本身包含更多复杂波动信息。[page::35-40]
5. 结论与未来工作
- 结论:
本文创新地将自编码器非线性降维技术应用于真实波动率指标的合成,并融入Realised GARCH模型中实现波动率预测,显著提升了预测准确度及模型的动态参数适应性。此方法克服线性合成方法的局限,提供了更丰富、更灵活的波动率信息,尤为适合复杂非线性金融环境。
- 未来拓展:
- 深度自编码器结构替换单隐藏层,更好捕捉深层次非线性。
- 结合经济政策不确定性等文本类不确定性指标,丰富模型输入。
- 超参数动态调优,结合滚动验证提升编码效果。
- 探索更具鲁棒性的误差分布(如Student-t),改进模型估计精度[page::41].
---
三、图表深度解读
图1:Autoencoder结构示意
- 展示一层隐藏层的基本结构,从12维输入通过编码层降维至1维隐层,再经解码层重构回12维输出。
- 清晰反映模型的自我重构属性和非线性激活过程,为非线性降维的隐含机理提供直观理解[page::21]。

图2:S&P 500绝对收益与5分钟RV的对比
- 通过时间序列图形直观呈现两者高度一致的波动模式。
- 体现5分钟未加工的真实波动率指标所能捕捉的动态市场风险。
- 高峰时间点准确对应历史经济金融重大事件,例如2000年互联网泡沫破裂,2008金融危机,2020年疫情暴发[page::29]。

图3:S&P 500样本内绝对收益、5分钟RV与自编码器合成波动率
- 绿色线(5分钟RV)和红色线(自编码器合成波动率)均紧随蓝色收益绝对值的峰谷起伏。
- 证明自编码器有效地以非线性方式提取多指标内在波动信息,对真实市场波动具有良好外推能力。
- 自编码器方法在捕获尖峰及波动区域特征方面与基准指标高度吻合,显示其表现稳健[page::32]。

图4:S&P 500样本内自编码器与PCA、平均合成波动率对比
- 三条曲线走势高度重叠,主波动趋势表现一致,体现核心信息的共享。
- 该结果说明自编码器虽使用非线性方法,但仍能保留传统线性方法捕获的主要动态。
- 同时,非线性处理赋予其潜在改进预测性能的可能性,基于更复杂的特征映射[page::32]。

图5:S&P 500样本外不同模型波动率预测及绝对收益对比
- 上图:AE-RealGARCH与AVG-RealGARCH预测的波动率(黑色与红色)对比绝对收益(蓝色),呈高度吻合,反映优秀的动态捕捉能力。
- 下图:PC和IC-RealGARCH预测波动率几乎重合,同样紧扣绝对收益走势。表现证实PCA与ICA合成指标功能类似。
- 图形强化了自编码器非线性合成方法较传统线性方法对市场风险动态响应更为灵敏和精确的结论[page::38]。

图6:S&P 500样本外期RealGARCH参数动态估计
- 四个子图分别展示参数ω、β、γ和测量误差σ
- γ呈逐步上升趋势,β相应下滑,表明波动率模型逐渐赋予真实波动率指标更大权重。
- AE-RealGARCH的参数波动灵活幅度明显大于其他模型,印证其利用非线性合成指标捕捉高阶复杂模式的能力。
- 测量误差σ_ε的剧烈变化表明自编码器合成指标波动信息更丰富且动态特征复杂[page::39]。

---
四、估值分析
本论文为模型方法设计及评估报告,无直接传统意义的估值(估价)部分。其重心在于风险建模及预测准确率提升,通过比较预测对数似然值做模型性能判定。核心估值方法体现在波动率预测误差的最大似然估计,结合模型架构对真实波动率指标的优化使用。数学上采用对数正态分布的联合极大似然方法,结合两部分似然(回报和测量方程),对参数进行估计,同时保证稳定性约束。约束优化使用SLSQP算法,保证解的正规与收敛性[page::24-26]。
---
五、风险因素评估
报告未明确单独指出风险因素章节,但可从内容推断包含以下潜在风险:
- 模型过拟合风险: 自编码器尤其非线性模型较复杂,存在对训练数据过拟合风险,可能影响泛化能力,文中通过Ridge正则化和稀疏正则化部分缓解此风险。
2. 高频数据噪声影响: 真实波动率指标受限于高频数据中存在微观结构噪声,此噪声可能传递至合成指标,影响预测。多种平滑和子抽样技术用于减轻问题。
- 超参数选择风险: 使用默认超参数,缺少动态调优,可能影响编码质量及预测效果,作者强调未来研究需改进超参数调优机制。
4. 模型假设风险: 误差假设为高斯分布,未涵盖如厚尾或跳跃特性,可能限制模型对极端事件的响应能力。报告建议后续探索更合适的误差分布。
- 滚动窗口数据敏感性: 某些滚动窗口内自编码器输出生成异常,需重新运行,反映模型对数据敏感及训练不稳定的潜在问题[page::22-23, 39-41]。
---
六、批判性视角与细微差别
- 优点: 创新结合深度学习自编码器与传统Realised GARCH模型,填补非线性真实波动率指标合成研究空白,通过丰富样本与四市场广泛验证,研究设计严谨。
- 假设局限: 单层自编码器结构简约,虽符合训练稳定要求,但可能限制特征抽取深度和灵活性,未来多层深度网络可能进一步提升性能。
- 参数固定化: 超参数未动态调整,可能掩盖特定市场波动状况下的性能差异,缺乏个性化模型适配策略。
- 结果相似性: PCA与ICA结果极度接近,表明当前数据结构中短期相关及非高阶独立成分差异有限,值得重新审视独立成分分析实际的附加价值。
- 模型复杂度与计算成本: 自编码器非线性训练计算负担较大,实际应用中需平衡效率与准确率。
- 隐含选择的尺度变换技巧: 合成指标均经过类似尺度线性映射,可能影响非线性表达本质,值得深挖其对模型表现的影响。
---
七、结论性综合
本研究立足于金融高频数据的真实波动率指标,提出将神经网络中的自编码器非线性降维技术引入Realised GARCH模型,实现对多指标信息的合成与优化,促进了波动率预测性能的提升。核心结论包括:
- 自编码器生成的合成波动率指标在样本内表现出与传统PCA、ICA等线性方法接近的统计特性,但在样本外预测中体现更高的准确率,说明非线性方法更好捕获了波动率动态的复杂结构。
- 多市场实证显示,AE-RealGARCH模型在对挑战性较高的金融环境(如COVID-19期间)波动率预测上显著领先,包括在S&P 500和FTSE两个成熟市场首位。
- 参数估计动态披露,自编码器生成指标使模型参数随着数据变化更灵活调整,增强了模型对金融市场波动变化的适应性和敏感度。
- 本研究不仅从理论上推动了多真实波动率指标集成方法发展,也为金融风险管理和资产定价模型提供了实践上可行且优越的波动率预测工具。
- 图表直观展示了技术路径及实证结论,尤其是自编码器设计架构图(图1)、真实与合成波动率时序图(图2-4)、预测效果与参数动态估计(图5-6)为论证提供了系统且丰富的视觉支持。
综上,本文为波动率预测领域引入深度学习非线性综合视角,证明其优异性及未来研究潜力,特别是在多波动率指标选择难题上的解决方案,具有高度理论价值和实际意义[page::0-41]。
---
参考图表示例
- 图1(Autoencoder结构)

- 图2(S&P 500绝对收益与5分钟RV)

- 图3(S&P 500样本内绝对收益、5分钟RV与AE合成波动率)

- 图4(S&P 500样本内PCA、平均与AE合成波动率)

- 图5(S&P 500样本外多模型预测波动率)

- 图6(S&P 500样本外模型参数动态估计)

---
本分析力求详尽剖析报告的结构与实证,清晰说明了模型方法、数学表达、实证过程和核心发现,且专门针对关键数据与图表进行了深入解读,有助于读者全面理解该研究中的创新点与实际应用价值。[page::0-41]