`

海外文献速览系列之十六:高频数据下基于文本挖掘和深度学习的股票波动性预测

创建于 更新于

摘要

本报告基于Bolin Lei等人的研究,探讨了利用高频交易数据结合文本挖掘构建股东情绪因子,并基于深度学习LSTM模型对股票波动率进行预测的方法。实证发现,加入情绪指标的LSTM模型在多指标损失函数下预测精度优于传统计量经济学模型,情绪因子显著提升波动率预测效果,且时间窗口的选择对模型表现影响显著,窗口20天表现最佳,为波动率预测提供了新的技术路径和理论支持 [page::0][page::1][page::11][page::12]

速读内容

  • 研究背景与意义 [page::0][page::1]

- 金融资产价格波动率是衡量风险和衍生品定价的重要指标。
- 传统的计量经济模型如GARCH、HAR-RV、ARFIMA虽有效,但存在无法拟合非线性关系和忽略交易信息及舆论的缺陷。
- 本文结合高频数据、文本情绪因子和深度学习LSTM模型,提升波动率预测准确性。
  • 传统模型及LSTM模型介绍 [page::2][page::3][page::4]

- GARCH、HAR-RV和ARFIMA模型简述,均基于历史波动率数据。
- LSTM结构介绍及其三道“门”机制优势,能有效捕捉长短期记忆,适合波动率非线性特征建模。

  • 预测指标体系与评估标准 [page::5][page::6]

- 选取实际波动率、交易量、场内情绪和公众情绪等多维指标构建预测体系。
- 高频数据5分钟周期确定实际波动率计算方法。
- 采用6个损失函数(MSE, RMSE, MAE, MSLE, R², RMSPE)全面评估预测准确性。
  • 文本情绪因子构建 [page::7]

- 从东方财富股吧爬取约12万条评论,通过两轮中文情感词库标注(通用和股票情绪词汇表)完成情绪分类。
- 将评论浏览量作为权重计算每日情绪指标,加权后的文本情绪因子有效反映投资者情绪波动。
  • 高频数据与特征重要性分析 [page::6][page::8][page::9]

- 样本涵盖2010-2020年2741个交易日,细化至每5分钟一次数据采集。
- 通过XGBoost模型计算特征重要性,文本情绪因子排名靠前,仅次于价格变化率、CDP等指标。
  • LSTM模型设计与训练参数选择 [page::9][page::10]

- 采用滚动时间窗训练预测,确定时间窗口为20天时模型表现最佳(最低MAE和MSE)。
- 模型采用两层LSTM+全连接层,加入Dropout防止过拟合,优化器为RMSprop,损失函数采用MAE。
- 训练过程显示训练集和验证集损失明显下降,模型拟合效果良好。

| Windows width | MAE | MSE |
|---------------|-------|-------|
| 10 | 0.227 | 0.456 |
| 20 | 0.219 | 0.437 |
| 30 | 0.224 | 0.447 |
| 40 | 0.242 | 0.481 |
  • 模型预测效果及多模型对比 [page::10][page::11][page::12]

- 比较12个模型,包括传统经济学模型(ARCH、GARCH、EGARCH、FIGARCH)及深度学习模型(LSTM有无情绪)。
- LSTM+情绪指标模型在六个损失指标下均排名第一,性能优于纯LSTM和ARFIMA模型,准确率提升显著:
- 相对ARFIMA模型,MSE提升2.5%,RMSE提升1.3%,MAE提升14.6%,MSLE提升34.1%,$R^2$提升4.9%,RMSPE提升24.9%。
- 相比无情绪指标的LSTM,情绪指标的加入分别提升预测准确率9.3%、4.7%、6.2%、9.2%、7.9%和16.9%。
- 多步预测(2步、5步)显示LSTM模型表现稳定,传统模型准确率下降明显。
  • 研究总结与点评 [page::12][page::13]

- 结合高频交易数据、文本挖掘构建的情绪因子与深度学习LSTM模型,显著提升了波动率预测精度。
- 该方法为金融时间序列波动预测提供新思路,适用于风险量化和衍生品定价。
- 窗口参数选取和模型结构优化是提升预测稳健性的关键。
- 文本情绪作为新兴信息源,对预测市场波动率有实证支持的正向影响。

深度阅读

海外文献速览系列报告分析——《高频数据下基于文本挖掘和深度学习的股票波动性预测》



---

1. 元数据与报告概览(引言与报告综述)


  • 报告标题:《海外文献速览系列——高频数据下基于文本挖掘和深度学习的股票波动性预测》

- 作者及机构:高智威(东兴证券研究所金融工程首席分析师)及团队
  • 发布时间:2022年3月16日

- 原文出处:选取Bolin Lei, Zhengdi Liu, Yuping Song发表在《Journal of Forecasting》(2021年)上的文章《On stock volatility forecasting based on text mining and deep learning under high-frequency data》
  • 主题:结合高频金融数据、文本挖掘和深度学习模型(LSTM)对股票波动率进行预测,重点在于公众情绪(文本情绪)对波动率预测准确性的提升作用。


核心论点摘要
  • 资产价格波动率是衡量风险及衍生品定价的重要依据。本文引入公众舆情文本信息构建情绪指标,并结合高频金融数据,运用深度学习中的长短期记忆网络(LSTM)对波动率进行预测。

- 实证结果显示,加入舆情情绪指标的LSTM模型在六项评估指标(MSE、RMSE、MAE、MSLE、$R^2$和RMSPE)上均优于无情绪指标的LSTM及传统计量经济学模型,预测准确度提升幅度均在4.7%-16.9%之间。
  • 窗口长度的选择对模型效果有显著影响,最佳窗口为20,即使用20天历史数据预测下一天波动率最优。

- 深度学习和文本挖掘结合,为构建准确稳健的波动率预测模型提供新思路,具有理论和实用价值。

风险提示明确指出文中结果均基于历史数据实证,且非投资建议,未来市场环境变化可能导致模型失效。[page::0,1]

---

2. 逐节深度解读



2.1 研究背景与动机


  • 近年来,波动率的预测模型从低频向高频数据发展,从传统计量经济学模型(如GARCH)到捕捉长记忆特征的HAR-RV和ARFIMA模型。

- 传统模型虽从统计角度进步明显,但仍局限于线性关系,忽略非线性特征及未来驱动因子(如公众舆情、交易信息)。
  • 深度学习模型(尤其LSTM)以其强大非线性拟合能力和特征提取潜力被学界看好,但在波动率预测方面,尤其中国市场中应用尚稀少。

- 公众舆情文本信息作为波动率预测指标的运用尤为有限,本文填补这一空白——构建文本情绪因子并结合高频交易数据,采用LSTM模型提升预测准确度。[page::1]

2.2 传统计量经济学模型介绍(2.1节)


  • GARCH模型(Bollerslev, 1986):基于低频资产收益残差的异方差建模,适合捕捉条件波动聚集性,但局限于线性结构及低频数据。

- HAR-RV模型(Corsi, 2009):基于异质市场假说,使用日、周、月多层次波动率信息,具长记忆特征,提升预测的样本外效果。
  • ARFIMA模型(Granger和Joyeux, 1980):引入分数差分算子以刻画长记忆序列,结合ARMA结构,同时考虑短记忆和长记忆特征,被认为能较好表现波动序列。


尽管这些模型在结构上考虑了一些波动率的特殊性,但总体仍局限于线性假设,缺乏对未来信息(如交易指标和舆情文本)的集成,且难以捕捉复杂非线性动态[page::2,3]。

2.3 深度学习模型-LSTM(2.2节)


  • LSTM是一种特殊的循环神经网络,能有效缓解RNN训练中的梯度消失和爆炸问题。

- 通过“遗忘门”、“记忆门”、“输出门”三大门控机制,有效控制信息的遗忘与保留,实现对长时序依赖的捕捉。
  • 模型输入为历史波动率及交易信息,配合文本挖掘生成的情绪指标,以多层LSTM架构提升波动率预测能力。

- 训练采用反向传播及误差最小化指标,融合高频时间序列(5分钟间隔)信息,形成高维时间序列预测体系。
  • 图1和图2清晰展示了LSTM结构与机制,以及内在的门控调节过程,展示其在捕捉时序动态中特有的技术优势。[page::3,4]


2.4 预测指标体系及评估标准(2.3节)


  • 创新地从四类指标构建预测因子:

1. 实际波动率(基于48个5分钟高频收益率的平方和计算)
2. 交易量信息(包括成交量、变化率、价格偏差、CDP、DMA、隔夜信息、高频成交量波动率等)
3. 场内情绪指标(市场买卖情绪指标如AR,BR,换手率等)
4. 公众舆论指标(文本情绪因子)(基于股东评论文本构建)
  • 采用六种损失和评估函数全面衡量模型预测表现,包括MSE、RMSE、MAE、MSLE、决定系数$R^2$和RMSPE,覆盖误差平方、绝对误差、对数误差及预测解释力多个角度,保证评价的多维性和全面性。[page::5,6]


2.5 实证方法步骤(2.4节)


  • 爬取东方财富股民评论,构建文本情绪因子(正负中性情绪标签,通过词库匹配文本分词,赋予权重后加权汇总)

- 计算基于5分钟高频数据的当日波动率
  • 构造LSTM模型,整合上述预测指标,调整超参数,预测未来波动率

- 对比评价多种传统计量模型与深度学习模型及舆情指标的影响,使用多指标多模型框架对比验证[page::6]

3.1 数据描述(3.1节)


  • 选取中国股市漫步者(股票代码002351)的交易数据,时间跨度2010年2月至2020年5月,剔除停牌期及假期,涵盖2741个交易日,每天48条高频数据(5分钟粒度)。

- 评论数据超过十二万条,文本质量高,数据丰富,结合Wind数据库补充价格交易信息。
  • 高频收益率基于连续5分钟收盘价计算,波动率计算基于收益率平方和,样本规模庞大,可有效支持深度学习模型训练。[page::6]


3.2 文本情绪因子构建(3.2节)


  • 利用中文专属分词,基于通用褒贬情绪词库做第一轮标注,进而构建股票领域特定情绪词库,进行第二轮更具针对性标注,显著提高了情绪判别准确度。

- 将文本情绪量化为+1(正面)、0(中性)、-1(负面),结合评论浏览量进行加权,采用Antweiler和Frank的加权情绪公式,体现情绪强度及浏览影响。
  • 情绪与波动率关系明确,为模型提供独特且增量的预测信息,弥补传统模型的不足。

- 这一方法融合了自然语言处理技术与金融量化分析,为深度学习模型提供了新的异构数据源,提升了波动率预测的信息维度和深度。[page::7,8]

3.3 数据统计特征及预测指标重要性(3.3节)


  • 日收益率和实际波动率的偏度和峰度明显偏离正态分布,且具有显著长记忆特征(通过Hurst指数和ADF检验证实)。

- 这符合金融时间序列的典型“尖峰厚尾”和“长记忆”特征,阐释了模型设计需重视非线性和长期依赖。
  • 通过XGBoost模型计算特征重要性,所有交易指标中“变化率”最为重要,其次为CDP和隔夜价差等,而公众情绪指标(Mood)排名位于中上,显示出其在波动性预测中贡献显著,不容忽视。[page::8,9]


3.4 LSTM模型设计与多模型比较(3.4节)


  • 模型设计参数

- 训练集95%,验证集5%
- 滑动时间窗口(时间窗)实践中最佳为20天
- 采用两层LSTM叠加,全连接层,配合Dropout层(防止过拟合,dropout=0.2)
- 优化器选用RMSprop,损失函数为MAE
- 训练轮次为30,批量大小10
  • 如图8所示,窗口长度20时,模型验证误差(MAE=0.219,MSE=0.437)取得最低,反映窗口的平衡性:界定历史依赖深度防止数据冗余和不足。

- 图10显示训练过程损失平稳下降,验证集表现良好,模型有效收敛。
  • 多模型对比中,12个预测模型涵盖LSTM(含及不含文本情绪)、传统计量模型(ARCH、GARCH、EGARCH、FIGARCH)、HAR-RV和ARFIMA。

- 表4及图11显示:
- 带文本情绪指标的LSTM模型排名第一,所有损失函数表现均优于其他模型。
- 相较最佳的传统模型ARFIMA,LSTM模型在各指标上提升均显著(尤其是MAE和MSLE分别提高14.6%和34.1%),说明深度学习对非线性捕捉及多因子融合优势明显。
- LSTM加入文本情绪指标后提升幅度非同小可,MSE提升9.3%,RMSE提升4.7%,MAE提升6.2%,表明情绪因素具有稳定的增效作用。
- GARCH模型在正态误差条件优于t分布,表明误差假设选择对模型表现也有显著影响。
  • 多步预测稳定性(图12、图13):

- LSTM模型对未来2步、5步预测仍保持较高准确性及稳定性,传统模型如ARFIMA准确率显著下降,表明LSTM更适合捕捉长时记忆和复杂动态。
- 加入文本情绪的LSTM模型在未来多步预测中保持优势,证明情绪因子具有持续的预测价值。
  • 图14真实与预测值对比中,LSTM尤其是带情绪指标版本准确拟合极值波动峰谷,较传统模型表现优异,具备更强预测实用性和风险管理意义。[page::9-12]


4. 结论总结(第4节)


  • 以高频数据为基础,结合基于文本挖掘构建的情绪指标,利用深度学习LSTM模型构建波动率预测体系。

- 实证结果表明,情绪指标显著提升波动率的预测准确性和模型稳健性。
  • 相较传统计量经济学模型(包括长记忆模型ARFIMA和HAR-RV等),LSTM模型的非线性拟合能力和多指标整合优势明显,为研究和实务提供了创新思路。

- 本方法可为风险管理及金融衍生品定价提供量化支持,有助于投资者有效防范市场波动风险并获取超额收益。[page::12]

5. 报告点评与价值(第5节)


  • 本文选题新颖,融合深度学习与文本挖掘技术,突破传统线性计量模型的限制,深度挖掘了公众舆情对波动率经济意义的影响力。

- 实证设计合理,数据来源充足,样本长度长,对模型参数进行了系统调整和比较验证,结果经多种指标、多模型对比,具有较强说服力。
  • 通过明确的对比分析证实了文本情绪作为辅助指标的实际效用,为金融市场量化投资和风险管理提供新工具。

- 小结中对模型窗口期的合理选择、训练过程的控制及多步预测的实验设计体现了作者在模型稳定性和实用性方面的考虑。
  • 风险提示合理,模型依赖历史数据,存在市场环境时效性问题。

- 本报告作为海外前沿文献的介绍和应用,可促进国内研究对该领域的理解和落地,对金融科技及量化投资从业者具备重要参考价值。[page::13]

---

3. 图表深度解读



图1(第3页):LSTM结构图


  • 展示了LSTM记忆单元的结构框架,包括输入、遗忘门、记忆门和输出门。

- 说明LSTM相比简单RNN能有效控制信息流,避免梯度消失,适合长时依赖的时序数据。
  • 回顾具体的数学表达式(递归定义、门控机制)有助于理解其非线性映射和状态更新机制。

- 图展示支持作者引入LSTM于波动率预测的理论基础,说明该模型适合处理股票波动率复杂动态特征。[page::3]

图2(第4页):LSTM三个门控机制示意图


  • 更具体展示了LSTM单元内部三个门(遗忘门、输入门、输出门)的数据流与信息控制路径。

- 强调每个门作用,确保信息选择性保留或丢弃。
  • 这种机制提供了模型记忆长期细节的能力,支持对波动率等金融序列的深度建模。

- 支撑原文对模型架构的技术说明。[page::4]

图3(第5页):预测指标体系图


  • 体系包括“实际波动率”“交易信息”“场内情绪”“公众舆情指标”四大类,进一步细分具体指标。

- 强调高频交易特征及情绪指标的综合利用。
  • 可视化清晰呈现指标多样性,说明模型输入变量的丰富性和复杂性。

- 说明文本情绪指标并非孤立主体,而是与其他指标一起构成综合波动率预测因子体系。[page::5]

图5(第8页):收益率和波动率描述性统计表


  • 包括均值、中位数、标准差、偏度和峰度、最大最小值、ADF单位根检验、JB正态检验、Q统计和Hurst指数。

- 显示序列非正态分布、尖峰厚尾及长记忆特征,为选择深度学习及长记忆模型提供数据支持。
  • Hurst指标在0.5-1之间表明时间序列具有显著持久性。

- 统计性质说明传统参数估计和线性模型的局限,需要非线性模型增强拟合能力。[page::7]

图6(第9页):基于XGBoost计算的特征重要性


  • 横向条形图,变化率最高,其后依次是CDP、隔夜扩散价、偏差(DMA等指标)和换手率等。

- 公众情绪(Mood)位于中上位置,体现文本情绪在波动率预测中的实际贡献。
  • 证明情绪因子非虚无缥缈,其信号价值在多个预测指标中居于重要地位,支撑模型选择。

- 为设计综合指标体系提供依据。[page::9]

图7(第9页):滚动预测示意图


  • 示意图说明以固定时间窗的数据(如20天)进行滚动,预测未来第21天、第22天的波动率。

- 支持滚动预测框架合理,体现动态调整训练窗口适应时序特征。
  • 逻辑严谨,体现深度学习模型在时间序列预测中实际应用流程。[page::9]


图8(第10页):LSTM训练时间窗口参数选择表


  • 不同窗口宽度(10、20、30、40天)对应MAE和MSE误差。

- 20天窗口得到最优误差指标,验证窗口选择的经验合理性。
  • 说明时间窗口过小不能提供足够历史信息,过大则引入噪音影响训练质量。

- 这一选择对整体模型效果具有显著影响。[page::10]

图9(第10页):LSTM参数设置表


  • 明确了数据分割(95%训练,5%验证)、优化器(RMSprop)、激活函数(Linear)、损失函数(MAE)和训练轮次(30)等超参数。

- Dropout设置为0.2降低过拟合风险。
  • 体现作者对模型训练细节的重视,保证训练稳定性与泛化能力。[page::10]


图10(第10页):模型训练损失曲线


  • 训练及验证损失随轮次下降趋势,验证集显示一定波动但总体稳定。

- 表明模型在训练过程中的收敛效果良好,未出现明显过拟合或欠拟合。
  • 有利于增强对结果可靠性的信心。[page::10]


表4(第11页):12个模型六个损失函数评价及排名


  • LSTM+情绪指标模型在所有损失函数中均排名第一,表现最优。

- LSTM(无情绪指标)紧随其后,仍显著优于其他传统模型。
  • ARFIMA排名第三表明长记忆模型仍具较强预测能力。

- 具t分布误差假设的GARCH族模型表现普遍较差,反映误差分布假设对预测稳定性影响不容忽视。
  • 综合排名为各标准排名平均,综合考虑误差大小和拟合解释,同时覆盖误差敏感度多维度。

- 体现深度学习结合舆情指标的实证优势。[page::11]

图12/13(第12页):二步法和五步法预测误差及排名


  • LSTM+情绪指标模型在两步和五步预测时均保持最佳预测排名,显示较强稳健性。

- 其他模型预测准确度随步长延长明显下降,特别是ARFIMA。
  • 证明深度学习模型更适合多步预测任务,且舆情指标提高长期预测效果。

- 进一步提高对深度学习和文本挖掘结合优势的认可。[page::12]

图14(第12页):真实波动率与五个模型预测比较图(MSE指标)


  • 散点为真实波动率,线条为模型预测值。

- 带情绪指标的LSTM模型更准确地捕捉极端波动(峰谷效应),线条与散点集群拟合紧密。
  • 传统模型预测表现较分散,极值预测相对较差。

- 可视化验证了量化评价的结果,强调模型在实际应用中的有效性和风险管理意义。[page::12]

---

4. 估值分析



本报告为文献速览形式,聚焦模型机制与预测效果,无直接估值讨论,估值内容未涉及。

---

5. 风险因素评估



报告明确指出:
  • 模型结果基于历史数据实证,未来市场环境变化(如宏观经济波动、政策调整等)可能导致模型失效。

- 文本数据受限于采集来源与情绪词库,情绪因子的构建存在一定主观性和局限。
  • 高频数据处理涉及大量噪音,窗口长度选择影响模型表现。

- 深度学习模型虽优势明显,但结构复杂、黑箱特征强,解释性和通用性存在风险。
  • 报告无明确缓解策略,投资者须谨慎使用,综合风险进行合理配置。[page::0,13]


---

6. 批判性视角与细微差别


  • 报告作者赞扬LSTM结合情绪指标的效果显著,但仍依赖单只股票(漫步者)数据,缺少跨市场、多品种的验证,模型泛化能力有待进一步检验。

- 文本情绪构建依赖词库和人工标注,难以完全捕捉投资者真实心理和潜在非理性行为。
  • 高频数据本身易受市场异常波动和数据噪音影响,深度模型若输入无关或错误信号,可能导致过拟合。

- 虽六种评估指标全面,但对实际投资组合收益率、风险调整收益等金融实务指标未作深入分析。
  • 报告中未详细涉及模型超参数敏感性分析,仅解释窗口长度,其他超参数的调整细节不够详尽。

- 计量模型主要为传统经典模型,缺少新兴机器学习模型比较,可能对模型优劣判断造成局限。
  • 深度学习黑箱特性依然是应用中的难点,缺乏对模型解释性的探索与披露。

- 尽管如此,报告在现有框架下结构严密,结论基于多模型多指标,整体较为可信且具有前瞻性价值。[page::13]

---

7. 结论性综合



本报告通过详尽解读Bolin Lei等人在《On stock volatility forecasting based on text mining and deep learning under high-frequency data》一文的研究成果,充分展现了结合文本挖掘构建的公众舆情指标与高频金融交易数据,利用深度学习模型(LSTM)进行股票波动率预测的新范式。

文献系统梳理了传统计量模型(GARCH、HAR-RV、ARFIMA)及其缺陷,突出了非线性时序模型(LSTM)在捕捉波动率复杂动态中的优势,以及公众情绪信息对波动率预测的增量价值。通过丰富的实证数据和科学的模型设计,研究展示了带有情绪指标的LSTM模型不仅在各种误差指标(MSE、MAE、RMSE等)上大幅改善预测准确度,而且在多步预测中表现出显著的稳定性。

图表深度解读强调:
  • 高频数据和文本情绪构建指标科学合理,数据量庞大且覆盖长时间跨度支持模型训练。

- LSTM模型参数设置合理,训练过程与损失曲线呈现较好收敛性能。
  • 多模型比较与多指标综合排名明确显示LSTM结合文本情绪指标的主导地位。

- 预测可视化图显示其在极值预测和波动峰谷拟合上的优势,契合实际市场风险管理需求。

风险提示合理且具体,结合当前模型的局限性,提醒投资者谨慎使用。

整体而言,报告立足海外前沿研究成果,提出了将量化金融学与金融文本挖掘相结合的创新思路,推进了股票市场波动率预测的理论与实务应用,为国内量化投资及风险管理领域提供了宝贵借鉴。

---

参考文献与延伸阅读


  • Bolin Lei, Zhengdi Liu, and Yuping Song. "On stock volatility forecasting based on text mining and deep learning under high-frequency data." Journal of Forecasting (2021).

- Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics.
  • Corsi, F. (2009). A simple approximate long-memory model of realized volatility. Journal of Financial Econometrics.

- Antweiler, W. and Frank, M.Z. (2004). Is all that talk just noise? The information content of internet stock message boards. Journal of Finance.

---

(全文基于原报告内容,所有观点与结论均归属于原作者,引用均标注页码以备查验)

报告