`

高频数据下基于文本挖掘和深度学习的股票波动性预测

创建于 更新于

摘要

本报告基于高频五分钟交易数据,结合文本挖掘构建公众情绪因子,采用深度学习模型LSTM进行股票波动率预测。引入情绪指标后,模型在六项误差评估标准下准确率显著提升,优于传统计量经济模型,且波动率预测更稳健,尤其善于捕捉极端波动,提供新的风险量化思路和方法 [page::0][page::3][page::17]

速读内容

  • 研究背景及意义 [page::0][page::3]

- 波动率是资产风险和衍生品定价核心指标,准确预测价值巨大。
- 传统计量经济模型如GARCH、HAR-RV、ARFIMA存在非线性拟合能力不足和遗漏文本情绪信息的缺陷。
- LSTM深度学习模型能捕捉时序非线性和长记忆特性,成为新兴预测方法。
  • 主要模型及方法介绍 [page::4][page::5][page::6]

- 介绍了GARCH、HAR-RV和ARFIMA等传统计量模型公式定义。
- LSTM结构及其三大门控机制详解(遗忘门、记忆门和输出门),有效解决长序列记忆问题。

  • 预测指标体系构建 [page::7][page::8]

- 预测指标包含实际波动率、交易量、场内情绪指标和公众情绪指标。
- 文本情绪因子由中文投资者评论文本挖掘产生,分正面、负面和中性,结合评论阅读次数加权。

  • 文本情绪因子构建流程 [page::10]

- 使用两轮中文词库标注,股票特定情绪词库覆盖不足问题。
- 通过阅读量权重计算综合情绪指标,转化为量化变量用于预测。

  • 高频波动率数据统计特征与指标重要性 [page::11][page::12]

- 日收益及波动率序列具备非正态分布和长记忆特性。
- 基于XGBoost特征重要性显示,价格变动率、CDP等是主要特征,公众观点指标影响显著。

  • LSTM模型训练参数和滚动预测设计 [page::13][page::14]

- 采用滑动时间窗口滚动预测,最佳窗口长度为20天。
- LSTM网络采用两层结构,结合dropout防止过拟合。
- 训练参数包括RMSprop优化器,MAE损失函数,批量训练大小为10次,训练30次迭代。


  • 不同波动率预测模型效果比较 [page::15][page::16]

- 对比12个模型,包含传统计量经济模型(ARCH/GARCH/EARCH/FIGARCH)、ARFIMA、HAR-RV及LSTM。
- 含文本情绪指标的LSTM模型(LSTM+M)在包括MSE、RMSE、MAE、MSLE、R^2和RMSPE六项评估指标中表现最好,准确率提升显著,最高可达16.9%。
- 传统模型在多步预测中准确率显著下降,LSTM模型显示高稳定性和长记忆捕捉优势。

| 模型 | MSE | RMSE | MAE | MSLE | R^2 | RMSPE | 总排名 |
|--------|-------|-------|-------|-------|-------|-------|-------|
| LSTM+M | 0.872 | 0.934 | 0.440 | 0.139 | 0.341 | 1.012 | 1 |
| LSTM | 0.961 | 0.980 | 0.469 | 0.153 | 0.316 | 1.218 | 2 |
| ARFIMA | 0.986 | 0.993 | 0.549 | 0.232 | 0.301 | 1.621 | 3 |
| GARCH-N| 1.018 | 1.009 | 0.764 | 0.138 | 0.278 | 1.644 | 4 |
  • 高频波动率预测趋势与极端波动捕捉能力 [page::17]

- 图14显示LSTM+M模型对极端波动点预测能力优于其他模型,拟合峰谷更准确。

  • 量化因子与策略总结 [page::0][page::10][page::15]

本文构建了结合文本情绪因子的波动率预测因子,通过将投资者评论情绪数值化,结合高频交易指标,运用LSTM深度学习模型进行多步滚动预测。实证表明,有情绪指标的LSTM模型性能优异,提升预测精度9.3%-16.9%不等,且预测更稳健,适合市场风险管理和衍生品定价。

深度阅读

高频数据下基于文本挖掘和深度学习的股票波动性预测详尽分析报告



---

1. 元数据与概览


  • 报告标题: 高频数据下基于文本挖掘和深度学习的股票波动性预测

- 作者与发布机构: 东兴证券金融工程团队,主要分析师高智威,研究助理贺争盛
  • 发布日期: 未明确标注,文献原文发表于2021年5月

- 主题范围: 股票市场波动率预测,结合高频金融数据、文本挖掘及深度学习方法,尤其是面向中国A股市场的实证研究
  • 核心论点与目标:

- 开发结合高频数据和投资者情绪文本信息的波动率预测模型。
- 探讨深度学习中的长短期记忆网络(LSTM)模型在波动率预测中的优势。
- 通过引入公众舆论情绪指标提升波动率预测的准确性和稳健性。
- 研究显示带文本情绪指标的LSTM模型优于传统计量经济学模型和无情绪指标的LSTM模型,尤其在MSE、RMSE、MAE、MSLE、$R^2$和RMSPE等多个评估标准下表现出显著提升。

本报告属于东兴金工“海外文献速览系列”的第十六篇,旨在帮助投资者快速理解和应用国际先进量化研究成果。它不构成投资建议,而是基于对Bolin Lei等三位学者《On stock volatility forecasting based on text mining and deep learning under high-frequency data》文献的解读和整理[page::0,3]。

---

2. 逐节深度解读



2.1 研究背景



报告首先说明了波动率在衡量资产风险及衍生品定价中的核心作用,回顾了传统波动率预测方法的发展历程:
  • 传统模型进展:

- GARCH模型(Bollerslev,1986):利用低频数据反映金融资产收益的异方差性,存在只基于历史信息和线性假设的局限。
- HAR-RV模型(Corsi,2009):基于异构市场假说,融入了日周月不同层级波动率信息,改进了长记忆效应描述。
- ARFIMA(Andersen等,2003):结合分形噪声和ARMA方法,强化子长期记忆性刻画。

缺陷在于这些模型不能有效捕获非线性关系,且对交易信息和投资者情绪等未来驱动因素纳入不足。
  • 深度学习与文本挖掘的兴起:

- LSTM作为一种循环神经网络,解决了RNN的梯度消失问题,能有效捕获时间序列的长短期依赖关系。
- 传统深度学习研究多集中于价格和收益率预测,较少应用于波动率预测。
- 文本舆情指标多用于价格趋势判断,波动率预测中较少涉及。

作者提出利用高频数据结合文本情绪指标,通过LSTM模型提高波动率预测的有效性,弥补传统模型无法拟合非线性和缺少情绪信号的缺陷[page::3].

2.2 模型与研究方法



传统计量经济学模型介绍


  • GARCH模型:针对残差序列异方差特征建模,均值方程表达为$yt = \varphi xt + ut$,条件方差刻画为$\sigmat^2 = \alpha0 + \sum \alphai u{t-i}^2 + \sum \betaj \sigma{t-j}^2$,其中参数非负确保方差正定[page::4]。
  • HAR-RV模型:将日、周、月波动率作为解释变量,通过线性回归关系预测未来波动率,捕获异质市场特征和长记忆效应,波动率由5分钟收益平方和计算[page::4]。
  • ARFIMA模型:引入分数差分算子$(1-L)^d$,允许长期记忆和自相关的非整数阶建模,兼顾短期ARMA结构和长期依赖[page::5]。


深度学习模型-LSTM详解


  • 介绍LSTM结构区别于传统RNN,核心在于引入三个门控机制:

- 遗忘门(f
t): 控制遗忘无关信息。
- 输入门(it)与候选记忆单元(𝘾̃t): 选取保留的重要信息新加入记忆单元。
- 输出门(Ot): 决定当前输出信息。
  • LSTM的状态转移方程详细列出,门控层通过Sigmoid激活,将输入融合前一时刻输出和当前输入,保证长期依赖信息传递且避免梯度消失[page::5-7]。


预测指标与评估标准


  • 预测指标涵盖四类:

- 实际波动率(由高频收益平方计算)
- 交易量信息(成交量、变化率、偏差、均价差、隔夜信息、高频交易量波动率)
- 场内情绪指标(指标AR、BR反映买卖情绪和意愿,换手率)
- 公众情绪指标(文本情绪因子,后文构造详述)
  • 六种评价指标体系:

- MAE、MSE、RMSE、MSLE、$R^2$和RMSPE,全面衡量绝对误差、相对误差、预测偏差和拟合优度[page::8-9]。

实证步骤简述



具体流程依次为:
  1. 情绪因子构建:基于东方财富股票评论,运用中文情绪词典、股票特殊情绪词典,结合文本分词与加权,计算每日加权情绪指数。

2. 实际波动率计算:依据5分钟高频收益计算。
  1. LSTM模型构建:结合高频数据与情绪指标,调整超参数。

4. 模型对比和评估:运用六项评价标准与传统计量经济模型及无情绪指标LSTM比较效果[page::9].

---

3. 实证分析



3.1 数据选择


  • 研究对象为中国股市漫步者(002351)。

- 样本时间区间2010年2月8日至2020年5月28日,共2741交易日。
  • 高频数据以5分钟为周期,共48条数据/日;文本数据来源为东方财富股吧,爬取12万条评论。

- 高频价格数据合计11.86万条,交易时间涵盖竞价和连续竞价时段。
  • 数据质量好,且覆盖多个市场行情周期[page::10-11]。


3.2 文本情绪因子构建


  • 首先对每条评论进行中文分词,匹配普通褒贬词典,基于词频加权,确定初始情绪分值(正=1,中=0,负=-1)。

- 建立针对股票评论的特殊情绪词库,对主流议题和典型情绪词反复标注,以改善传统情感词典覆盖不足问题。
  • 加权评论阅读量作为权重,采用Antweiler和Frank的方法对情绪指数进行整合,情绪指数 $Moodt$ 综合了正面和负面评论权重和数量,体现文本情绪的市场影响力。


此过程有效加强情绪指标的准确度和代表性,实证证明该因子与波动率存在相关性[page::10-11]。

3.3 实际波动率描述性统计与特征重要性分析


  • 描述性统计结果(见图5)显示,日收益率、波动率及其平方根系列均显著偏态且峰度高,且均不满足正态分布假设(JB检验显著)。

- 通过Q统计量和Hurst指数体现显著的长记忆特征,尤其波动率的Hurst指数接近1,确认高频波动序列中长期相关性明显。
  • 稳定性检测(ADF单位根检验)通过,序列平稳,适合模型构建。

- 基于XGBoost计算的特征重要性(见图6)表明,价格变化率(change rate)、CDP、隔夜价差(overnight spread)为主要指标,不同交易量指标和情绪指数“Mood”也具备较高的重要性,暗示舆论情绪对波动率预测的价值[page::11-12]。

3.4 波动率预测模型效果比较



3.4.1 LSTM模型参数选择

  • 采用滑动窗口法滚动预测(如图7示意),窗口长度经过10、20、30、40天对比,20天窗口时模型表现最佳(MAE和MSE最低),表明不宜窗口过长导致噪声过多,亦不可太短影响数据充分利用[page::13]。

- LSTM结构包括两层LSTM和全连接层,防止欠拟合同时避免过拟合,加入Dropout(0.2)避免神经元共适应过度。
  • 优化器采用RMSprop,激活函数线性,损失函数选择MAE,训练批次10,每轮训练30次。

- 从训练损失曲线(图10)可见,训练误差和验证误差稳步下降,模型收敛良好[page::14]。

3.4.2 模型预测结果对比

  • 12个模型参与比较,涵盖ARCH、GARCH、EGARCH、FIGARCH、HAR-RV、ARFIMA及LSTM(有无情绪指标)。

- 综合六项损失指标排名显示,带公众情绪指标的LSTM模型(LSTM+M)表现最佳,排名全优第一(图11)。
  • 和传统最佳模型ARFIMA相比,LSTM+M在MSE、RMSE、MAE、MSLE、$R^2$、RMSPE六个指标下预测准确率分别提升$2.5\%$、$1.3\%$、$14.6\%$、$34.1\%$、$4.9\%$、$24.9\%$;相较于无情绪指标的LSTM,提升亦显著,表明情绪指标贡献明显。

- GARCH模型(尤其t分布误差)表现相对较差,支持非线性深度学习模型的有效性。
  • 多步预测(第2步、第5步,图12、图13)中,LSTM展现高度稳健性,传统模型准确度明显下滑,尤以ARFIMA为甚。

- 实际波动率与五大模型(LSTM+M、LSTM、ARFIMA、GARCH-N、EGARCH-N)对比(图14)显示,LSTM+M在拟合极端波动峰谷变化上优于其他模型,能够更准确地捕获波动率极端值。

综合来看,深度学习结合公众情绪文本指标极大提升了高频波动率预测的准确性和鲁棒性[page::14-17]。

---

3. 图表深度解读



图1:LSTM结构图(第6页)


  • 阐释LSTM单元由状态$C_t$和三个门控(遗忘门、输入门、输出门)组成。

- 每个门使用sigmoid激活函数调整信息输入和遗忘比例,通过隐层之间的状态继承控制长期依赖。
  • 结构示意帮助理解门控机制如何缓解传统RNN的梯度消失/爆炸问题,保持记忆的持久性。


图3:预测指标体系(第8页)


  • 清晰划分了四类主要预测指标,分别为高频交易数据(成交量、价格变化率等)、场内市场情绪指标和公众舆论指标。

- 图中展示变量间相互关联,突出了情绪指标作为外围信息与传统交易指标的补充地位。

图4:文本情绪指标处理过程(第10页)


  • 说明中文句子分词过程,首先使用通用情绪词典进行标注,随后构建股票领域专属词典提高准确性。

- 分两轮情绪标注优化方案及其基于权重的加权计算方式,展示情绪指数的工程化构建过程。

图5:每日收益和波动率描述性统计(第12页)


  • 包含平均值、标准差、偏度、峰度、最小最大值,以及单位根检测指标ADF,显著性水平标注清楚。

- 展示数据不服从正态分布且具备长记忆效果,支持用更高级的模型进行分析。

图6:XGBoost特征重要性(第12页)


  • 条形图直观展示各特征对波动率预测贡献度。

- 最大贡献变量为“change rate”,紧跟为CDP、隔夜价差等传统指标。情绪指标“Mood”和市场情绪AR、BR仍占较高排行,验证文本特征价值。

图8:LSTM时间窗口选择示意图(第13页)


  • 图示滑动窗口滚动预测机制,直观体现时间序列滚动样本训练和预测的逻辑。

- 说明窗口长度设为20对训练效果最佳。

图10:模型训练误差曲线(第14页)


  • 观察训练集和验证集误差减少趋势。

- 提示模型收敛,且训练过程平稳,防止过拟合。

图11、12、13:不同模型预测误差统计排名


  • 多表格显示12模型在不同损失指标中的误差值与排名,直观对比模型表现。

- LSTM加情绪指标模型稳定领先,ARFIMA表现次之,GARCH系模型因线性及误差假设限制效果较差。

图14:预测5个模型的实际波动率拟合图


  • 折线和散点图展示真实波动率与预测值走势对比。

- LSTM+M模型明显更贴合真实波动率,尤其在峰谷和极端波动表现更好。

---

4. 估值分析



此篇报告为量化策略方法论研究,未涉及具体个股估值或目标价格设定,也无采用诸如DCF或市盈率等估值技术,因此无需估值分析。

---

5. 风险因素评估


  • 模型失效风险:文中强调所有结论基于历史回测。未来若市场环境出现重大截然不同变化(如规制冲击、极端系统性风险等),则模型性能可能显著下降。

- 数据依赖风险:高频数据质量及文本舆情数据的采集质量对预测影响重大,数据异常或噪声可能影响模型稳定性。
  • 过拟合风险:尽管采取Dropout等防过拟合措施,但深度学习模型在预测金融市场时仍可能出现拟合历史数据而对未来泛化有限的风险。

- 文本情绪指标构造限制:情绪词典和文本解析自动化可能存在分类偏差和误差,这是原因之一要求后续人工校验。
  • 报告未详述具体的风险缓释策略,但整体警示了投资者在使用模型结果时需谨慎考虑上述风险[page::0,18]。


---

6. 批判性视角与细微差别


  • 报告对于深度学习模型的非线性表现和文本舆情指标的价值给予高度肯定,但未详述模型训练的超参数调优细节及潜在的过拟合迹象,比如验证误差波动较大等风险信号。

- 情绪指标构造虽创新,但舆情噪声较大,如何区分市场噪音与真正情绪的影响,报告未深入剖析,可能存在一定的模糊地带。
  • 预测窗口长度设为20天是实证中效果最佳的选择,但未考量不同市场环境周期的适应性,未来研究可结合多周期交叉验证。

- 评价指标全面但权重均等处理,或可考虑不同应用场景的指标权重差异,更细化的绩效优化有待提升。
  • 模型只选用单一股票漫步者案例,缺乏跨行业、跨市场的广泛验证,限制结论的推广外推。

- 论文及报告未引入最新的多模态学习或强化学习方法,是未来潜在方向[page::5-17]。

---

7. 结论性综合



本研究围绕基于高频数据结合文本挖掘的情绪指标,通过引入LSTM深度学习网络构建了股票波动率预测模型,展示了显著的实证优势。
  • 高频金融数据及文本舆情信息融合极大丰富了波动率预测的输入维度,传统模型所忽略的非线性关系被深度模型有效捕获。

- 文本情绪因子作为新增预测变量,在六项评估指标均实现蹿升,验证舆情对市场情绪和波动率的显著影响。
  • LSTM模型相较于传统计量经济学模型不仅在一次性预测中表现优异,更在两步和五步多步滚动预测中展现了稳定的鲁棒性。

- 模型的窗口期参数、网络层数和神经元结构经过精心调整,保障了训练过程的稳定与预测准确性。
  • 各类图表数据均指向:结合情绪指标的深度学习模型在描述极端波动和峰谷特征方面更为精准,为风险控制和衍生品定价提供了理论和实用支持。


总之,该报告不仅提升了对股票波动率预测模型的理解,更为中国市场提供可复制的量化研究框架,具有较高的理论价值和实务应用潜力[page::0,3,8,11-17]。

---

重要图表索引



| 图表编号 | 内容简介 | 相关页码 |
|----------|--------------------------------------------|----------|
| 图1 | LSTM单元结构及门控机制示意图 | 6 |
| 图3 | 预测指标体系(交易信息、场内/场外情绪等) | 8 |
| 图4 | 文本情绪指标的构建流程图 | 10 |
| 图5 | 日收益率及波动率描述性统计数据 | 12 |
| 图6 | 基于XGBoost的预测指标重要性排序 | 12 |
| 图7 | 滚动窗口预测示意图 | 13 |
| 图8 | LSTM模型窗口长度选择对预测误差的影响 | 13 |
| 图9 | LSTM模型参数配置表 | 14 |
| 图10 | LSTM训练和验证集损失曲线 | 14 |
| 图11 | 12个模型六个误差指标预测排名 | 15 |
| 图12、13 | 多步(第二步和第五步)预测误差排名 | 16 |
| 图14 | LSTM与传统模型在实际波动率拟合上的对比(散点线图) | 17 |

---

总体评价



该报告系统、详尽地回顾并实证了深度学习技术结合文本挖掘在高频波动率预测中的创新应用,展示了显著优于传统计量经济学模型的性能,尤其体现了股东情绪指标的实证价值。报告结构逻辑清晰,数据分析充分,图表直观,方法论严谨,具有较强的学术与实用参考价值。未来可在模型泛化、多标的跨市场验证及更丰富的深度学习算法探索方面深化,进一步提升预测能力和稳健性。

---

参考文献



Bolin Lei, Zhengdi Liu, and Yuping Song. "On stock volatility forecasting based on text mining and deep learning under high-frequency data." Journal of Forecasting (2021)[page::18].

---

风险提示



本报告基于历史数据回测,任何模型在市场环境极端变化时可能失效,本报告不构成投资建议,请投资者谨慎决策[page::0,18]。

---

以上为该份金融研究报告的全面、深入及专业性分析解读,涵盖了论文核心内容、方法论、数据、模型及评估,亦洞察其潜在不足与未来提升点,力求为投资者和研究者提供权威参考。

报告