股指波动率预测:舆情分析、深度学习能否战胜传统计量模型?
创建于 更新于
摘要
本报告基于上证50ETF价格及舆情数据,采用多元回归、GARCH和深度学习LSTM三类模型,系统比较各模型在波动率预测中的表现。结果表明,LSTM模型准确率最高,能够显著优于传统统计模型,而舆情数据本身具备一定的预测能力,且对模型样本外表现有适度提升作用,但对样本内提升有限。总体来看,深度学习结合价量数据为波动率预测带来明显增益,舆情数据作为辅助信息提升模型稳健性 [page::0][page::4][page::6][page::10][page::18][page::23][page::28][page::29]
速读内容
上证50波动率序列分析及平稳性检验 [page::6]

- 波动率历史均值约为15.9%,波动率时间序列表现出较强的平稳性,ADF检验拒绝单位根假设。
- 波动率能反映市场极端行情,波动率序列表现为中枢震荡加极端突发情况。
多元回归模型表现与参数优化 [page::10][page::11][page::12]
| 模型 | MAE | MSE | RMSE | 胜率 |
|-----|-----|-----|-----|-----|
| OLS(5日预测) | 0.0608 | 0.0104 | 0.1019 | 61.42% |
| Lasso | 0.0527 | 0.0074 | 0.0858 | 63.06% |
| Ridge | 0.0618 | 0.0131 | 0.1143 | 61.49% |
- Lasso回归通过稀疏化处理有效缓解多重共线性问题,表现优于OLS和Ridge。
- 模型胜率在不同回看窗口下波动较大,Lasso在长回看周期(≥120天)时更稳定,胜率维持在约63%。
- 样本外检验显示模型效果无衰减且略有提升,Lasso最高胜率达68.48%。
GARCH模型预测能力分析 [page::14][page::15][page::16]

| 回看天数 | 10 | 20 | 60 | 120 | 250 |
|----|----|----|----|----|----|
| 胜率(周度) | 80.1% | 75.7% | 67.85% | 65.80% | 62.31% |
- GARCH模型短期预测准确率高达80%,准确率随着回看周期延长逐步下降。
- 样本外回测同样表现良好,且100多条样本期内数据验证无模型衰减。
- 日度预测准确率低于周度,下降幅度3%-7%。
LSTM深度学习模型预测结果 [page::18][page::19][page::20][page::21]

| 指标 | LSTM | Lasso(线性) | 提升幅度 |
|-------|-------|--------------|---------|
| MAE | 0.0455 | 0.0527 | +13.64% |
| 胜率 | 70.73% | 63.06% | +12.15% |
- LSTM在周度预测中胜率最高,较Lasso提升显著,表现最佳。
- 在日度预测中,LSTM表现稍逊于Lasso,但整体仍保持较强预测能力。
- 样本外测试中,LSTM胜率略下降约5%,但仍维持有效水平。
舆情数据分析与结合模型验证 [page::22][page::23][page::24][page::25]

- 舆情情绪指数与波动率呈现正相关,尤其在市场波动剧烈时投资者情绪波动更明显。
- 舆情数据本身预测正确率约63%,在样本外表现可达70%。
- 与价量因子相关性偏低,可作为有价值的模型补充变量。
价量数据+舆情数据融合模型详细回测 [page::26][page::27][page::28]
| 模型 | 胜率样本内 | 胜率样本外 |
|-------|------------|------------|
| 多元回归+舆情 | 63.95% | 70.28% |
| LSTM+舆情 | 67.17% | 68.91% |

- 融合模型样本外表现较价量单一模型有明显提升,特别是多元回归模型。
- LSTM模型加入舆情后,样本内表现略有下降,样本外表现有所提升,预示更好的稳健性。
结论总结 [page::28][page::29]
- LSTM模型在波动率预测中优于GARCH与传统多元回归,整体预测正确率最高。
- 舆情数据具备独立预测能力,能在样本外增强模型鲁棒性,但样本内作用有限。
- 各模型预测远期波动率准确率均随预测期延长衰减,短期预测表现更佳。
- 模型样本外表现无明显衰减,显示出较好泛化能力。
深度阅读
深度报告 —— 金融工程:股指波动率预测专题详析
---
1. 元数据与报告概览
本报告题为《股指波动率预测:舆情分析、深度学习能否战胜传统计量模型?》,由上海东证期货有限公司金融衍生品研究院发布,报告日期为2022年12月15日。主导作者为王冬黎高级分析师,联系人谢怡伦分析师。
报告立足于期权投资领域波动率预测这一核心问题,结合传统经济计量模型、多元回归与GARCH模型,以及现代深度学习LSTM模型,同时引入舆情数据对模型的补充能力进行深入研究。核心目的是测试深度学习与舆情分析是否能在波动率预测中优于传统统计模型,从而服务于衍生品定价、风险管理与量化投资。
核心结论为:
- LSTM模型表现最优,周度预测正确率达70.73%,相比传统多元回归模型(约63%)及GARCH(约65.8%)有明显提升;
- 在多元回归模型中,Lasso回归优于OLS与Ridge,主要因其对多重共线性的有效控制;
- 舆情数据单独具备一定预测能力,但难以显著提升价量数据基础上的模型表现,样本外表现表现稍有提升,体现了模型的稳健性;
- 各模型预测能力在样本外表现稳定,无明显衰减。
报告以详实的数据分析和模型评估,给出深度学习前景可期,但舆情数据的增益有限的专业判断。[page::0,4,29]
---
2. 逐节深度解读
2.1 研究背景(第1节)
报告指出,波动率预测在金融市场中的核心作用,尤其是在期权标的定价和风险管理中的重要性。国内期权市场隐含波动率受限市场成熟度,可能存在非理性价格,导致隐含波动率不准确。故本研究采用基于历史已实现波动率的统计模型结合价量及舆情数据,预测未来波动。
报告同时指出历史数据建模的风险包括过拟合和历史条件可能不再适用。为此采用样本内样本外验证机制降低过拟合风险,并通过单位根测试验证波动率序列的平稳性,支持历史重演的合理假设。[page::4]
2.2 数据介绍(第2节)
- 价量数据:选取上证50ETF的开盘价、最高价、收盘价、成交量等20个价量因子,加入滚动均值、偏度、峰度统计特性,扩充时序信息。
- 舆情数据:来源于财经社区股民评论,提取发帖量、阅读数、评论数、情绪得分等情绪因子。
- 以5分钟频率数据计算日内对数收益并求和平方,得出已实现波动率,该波动率被用作建模的预测目标。
此部分奠定波动率序列计算方法基础,并将数据细分为结构化价量与半结构化舆情两大输入信息源。[page::4,5]
2.3 回测框架(第3节)
采用滚动回归(Rolling Regression)方法,模拟实际交易预测过程。具体选定滚动窗口长度\(N\)日,从\(T-N\)到\(T\)的数据用于训练,预测第\(T+1\)日波动率。周度预测时对价量数据进行5日滚动平均处理,日度预测则用每日数据。
该方法反复迭代,形成连续预测,能有效检验模型在动态环境中的稳定性与适用性。[page::6,7]
2.4 多元回归模型(第4节)
2.4.1 模型构建
...
- OLS为最小化残差平方和,标准线性回归;
- Lasso添加L1惩罚,稀疏化系数,有效抑制多重共线性、变量选择;
- Ridge添加L2惩罚,收缩估计量,提升矩阵条件数,解决参数估计不稳定问题。
- 样本量不足时采用伪逆计算参数。
2.4.2 预测结果
- 在以250日为回看窗口,3模型均拟合良好;
- OLS和Ridge模型在多重共线性较大时出现预测波动率负值的异常;
- Lasso因稀疏性避免了此现象,预测更稳定;
- 从MAE、MSE、RMSE等误差指标看,Lasso表现最佳,MAE约0.0527,胜率约63%,比OLS(61%左右)明显更优;
- 预测正确率随回看周期变化呈波动,OLS波动显著,Lasso及Ridge表现更稳定,Lasso优势明显;
- 日度预测与周度预测整体准确率持平或略有差异,预测准确率随预测周期增长而减弱,这符合统计规律;
- 样本外数据(2021年1月至2022年8月)验证模型稳定性,预测准确率无衰减且有小幅提升,Lasso仍表现最好。
图表深入解读可见,多元回归尤其Lasso对市场波动率有显著预测能力,但对较远期预测效果下降明显。
这说明传统回归基础+惩罚结构在特征选择与解释性方面依然具有优势。[page::7-12]
2.5 GARCH模型(第5节)
- GARCH作为金融时间序列建模的经典方法,适合建模具有条件异方差和长期依赖的波动率时间序列;
- 公式勾画了条件方差对过去平方残差和滞后条件方差的依赖关系;
- 预测效果优于多元回归,尤其在短回看周期(10日)预测准确率达80%以上,向长周期扩展准确率稳定约63%;
- 样本外验证中也表现良好,未见明显过拟合;
- 日度预测较周度预测存在准确率下降,这与多元回归正相反,暗示GARCH更适合中短期相关特性;
此外误差指标随预测周期增长递增,胜率无明显规律。这体现了GARCH模型对不同预测跨度敏感性复杂。
图表显示较多均衡稳定,GARCH适合时间序列自回归特征明确的波动率数据。[page::13-17]
2.6 LSTM模型(第6节)
- LSTM是RNN的改进,增加遗忘门、输入门、输出门,避免梯度爆炸,强化长短期记忆能力,适合复杂长时序数据;
- 使用120天价量数据训练,预测效果显著优于传统线性模型,周度胜率达70.7%,完全领先其他模型;
- 回测结果图显示LSTM预测结果与实际波动率吻合更紧密,波动捕捉更灵敏;
- 日度预测中LSTM较线性模型准确率稍有媲美但未显著超越,反映深度模型能力在不同时间尺度下作用不均;
- 样本外表现略有下降但整体稳定,仍具较高预测准确率,表明深度学习模型具有较好泛化能力。
LSTM结合强大时序依赖捕获能力,优于传统模型,已具备实际应用潜力。[page::17-20]
2.7 舆情分析(第7节)
- 舆情数据体现市场投资者的情绪及关注度,使用财经网站上的股民评论标题、数量、阅读量、情感得分等构建7个情绪因子;
- 采用SnowNLP中文语义分析进行情感打分,评分0(极消极)至1(极积极),虽存在金融俚语难识别缺陷,但整体具有区分能力;
- 统计显示波动率与情绪指标呈正相关,尤其在剧烈波动行情中表现尤为明显,验证市场情绪反应;
- 单独使用舆情数据回归预测,周度胜率稳定在63%左右,准确率高于随机猜测,表明具备一定预测价值;
- 样本外数据更为丰富,舆情样本外预测表现稍好,显示数据完备度提升对模型有效性有贡献。
结果表明舆情数据能反映部分波动信息,但独立效力有限。[page::21-24]
2.8 舆情数据与价量数据集成(第8节)
- 分析发现舆情与价量数据相关性较低,大部分相关系数低于0.3,理论支持二者信息互补;
- 两组数据内部存在高相关因子,存在多重共线性风险,解释Lasso表现优于其它回归模型;
- 将舆情因子补充入价量因子,分别在多元回归(主用Lasso)与LSTM模型上进行验证;
- 多元回归结果显示,加入舆情数据后样本内表现无明显提升,样本外预测正确率略有提高,最高可达70%以上,说明模型稳健性提升;
- LSTM模型中加入舆情数据后样本内预测正确率下降4%左右,但在样本外表现反而提高约2%-2.5%,展示更好的泛化与稳健性能。
整体来看,舆情数据对预测模型的增益有限,但可提高模型在样本外的稳定性,尤其是深度模型。[page::24-28]
2.9 总结(第9节)
报告总结了各模型的核心表现:
| 模型 | 样本内胜率(周度) | 备注 |
|----------------------|--------------------|------------------------------|
| 价量多元回归(Lasso) | 63.06% | 多重共线性问题显著 |
| GARCH | 65.80% | 短期波动预测能力较强 |
| LSTM | 70.73% | 模型表现最佳 |
| 价量+舆情回归 | 63.95% | 舆情提升不明显 |
| 价量+舆情 LSTM | 67.17% | 舆情提高稳健性 |
- 各模型样本外预测稳定无明显衰减,甚至因样本外波动较低出现小幅提升;
- 预测准确率随预测周期拉长而逐渐下降,符合统计预期;
- 深度学习LSTM显著优于传统计量模型,回应问题标题;
- 舆情数据本身具预测能力,但增益有限,仅在样本外提升模型稳定性;
- 市场风格切换为主要风险因素可能影响特征有效性。
以上结论体现现代机器学习与传统金融方法嫁接的优势与局限,并且真实反映了舆情数据整合的现实难题。[page::28-29]
---
3. 图表深度解读
- 图表3(上证50已实现波动率)显示波动率围绕约15.9%中枢震荡,极端经济事件时急剧飙升,表现出典型的条件异方差特征。ADF单位根检验显著,确认波动率序列的平稳性,支撑历史建模假设。[page::6]
- 图表4(滚动回归框架)清晰展示了滚动窗口策略划分的训练与预测样本结构,保证动态预测环境模拟的真实性。[page::7]
- 图表5(多元回归预测)对比真实波动率与OLS、Lasso、Ridge预测值可见,OLS与Ridge偶现负值,Lasso曲线更平滑更接近实际,表明稀疏回归优势明显。误差表(图6)进一步定量体现Lasso优于其它模型。[page::10]
- 图表7、8、9深入展示不同回看周期和预测周期对胜率和误差指标的影响,显示短回看周期对OLS敏感,Lasso稳健,且预测远期准确率下降,揭示模型对参数的敏感性及预测范围的限制。[page::10-11]
- 图表10、11(样本外多元回归表现)显示样本外预测无衰减,甚至优于样本内,弥补过拟合担忧,同时OLS与Ridge偶现预测异常,Lasso稳定。[page::12]
- 图表13-17(GARCH表现及样本外)形象呈现GARCH拟合波动性及误差指标,显示其在短期波动预测中卓越性能和在样本外稳定性,尤其短期准确率超过80%。日度预测下准确率下降,提醒建模时尺度选择的重要。[page::14-16]
- 图表18-19揭示GARCH不同预测周期下的指标细分,MAE/MSE随预测周期递增,胜率波动无规律,说明误差指标对周期敏感,准确率指标则呈现更复杂动态。[page::15-17]
- 图表20(RNN模型结构)展示传统RNN结构,帮助理解LSTM基础,强调其时间依赖记忆能力来源。[page::17]
- 图表21-24(LSTM模型表现)阐释LSTM在各指标上优于线性模型,尤其周度预测胜率提升约12%,回测曲线更贴近真实波动,有效捕捉复杂时序依赖。同时日度表现稍逊于线性模型,表明深度模型的尺度适配问题。[page::18-20]
- 图表25-31(舆情数据例示与情绪关系)具体展示舆情数据样本与情绪评分,及其与波动率相关性图表,指明舆情系数指标较低,情绪得分能反映部分波动率信息,但仍有限。[page::21-24]
- 图表32-35(舆情多元回归效果)显示舆情单独模型有一定预测力,样本外更优,且与价量数据合并后对模型有较小提升,验证了舆情数据作为补充的潜力。[page::24-27]
- 图表36-39(LSTM合并模型)合并舆情数据后样本内略降,样本外有所提升,稳定性增强,更适合实际环境。[page::27-29]
- 图表33(因子相关性热图)揭示价量与舆情数据相关性偏低,内部多重共线性明显,支持选择Lasso以及深度神经网络抑制多重共线性影响的建模选择。[page::25]
---
4. 估值分析
本报告核心为波动率预测工具技术比较,未涉及明确估值部分,因此此环节不适用。
---
5. 风险因素评估
报告明确指出市场风格切换可能导致特征有效性迅速衰减,模型表现下降。此风险未有具体缓解方案,但通过持续滚动窗口回测设计以及样本外验证尝试控制过拟合产生的影响,从而提高模型动态适应能力。
此外,舆情分析中指出中文情绪分析模型的训练集不专门针对金融领域,术语识别准确率受限,也存在一定误判风险。
---
6. 批判性视角与细微差别
- 报告整体严谨,但舆情数据的有限提升结果,暗示了目前情绪模型和数据采集尚不成熟,中文金融文本情绪识别仍有待深化,未来改进空间大。
- LSTM在日度预测略逊于传统线性模型,表明深度学习模型的调参和体系结构需针对金融时序做更细致设计,非黑盒应用。
- 传统模型中OLS和Ridge出现负波动率预测突出多重共线性病态矩阵问题,报告虽用伪逆进行估计,但负值依然显著,说明线性回归应限制于低维变量场景。
- 样本外表现优于样本内,主要缘于外样本波动较低,可能掩盖模型在高波动期的预测不足,未来需关注市场极端阶段的稳健性。
---
7. 结论性综合
本报告系统比较了多元线性回归(OLS, Lasso, Ridge)、GARCH、自回归模型与基于LSTM的深度学习方法对中国上证50ETF波动率的预测效果,并结合舆情数据探讨市场投资者情绪对预测的辅助作用。
- 历史波动率序列平稳且具周期性波动,适合基于历史数据建模;
- 基于价量数据的多元回归模型中,Lasso回归由于其变量筛选与正则化能力,表现超越OLS和Ridge;
- GARCH模型在短期内对波动率的拟合和预测表现优异,周度胜率高达80%,但日度预测准确率有所降低,显示其对粒度敏感;
- LSTM模型充分利用时序数据长短期记忆优势,在周度波动率预测中,胜率和误差指标均优于传统计量模型,展示了深度学习在金融时序预测上的潜力,样本外表现证明其较好泛化性;
- 舆情数据作为独立因素对波动率有预测能力,且与价量数据相关性较低,但结合舆情数据对价量数据的预测模型提升有限,尤其在样本内仅有 marginal impact,样本外有助于提升模型稳定性;
- 整体来看,机器学习特别是LSTM模型能在一定程度上“战胜”传统计量模型,特别是在中短期波动率的捕捉上表现更为优异;
- 市场风格切换仍是模型有效性的主要风险,未来需持续动态调整;
- 舆情数据和情绪分析技术的进步,将为后续波动率及其它金融变量的预测提供潜在支持。
综合图表数据可见,报告系统验证了新兴深度学习技术结合传统经济计量模型与文本情绪分析在中国期权市场波动率预测领域的可行性和实用价值,具有较强指导意义和创新典范。
---
(本分析涉及图表及数据均基于报告原文内容,确保论断溯源明确,符合专业金融分析需求)[page::0-31]