`

高频数据下基于文本挖掘和深度学习的股票波动性预测

创建于 更新于

摘要

报告基于深度学习LSTM模型结合基于高频交易数据构建的文本情绪因子,系统评估了其对股票波动率预测的效能。实证分析表明,融入股东文本情绪指标的LSTM模型,在多项损失函数评价下,预测准确率显著优于传统计量经济学模型如GARCH、ARFIMA等,且情绪因子有效提升了模型的稳健性和预测精度。研究为通过深度学习和文本挖掘实现更准确的波动率预测提供了新视角,适用于风险管理与衍生品定价 [page::0][page::3][page::17]

速读内容


研究背景及意义 [page::3]

  • 股票波动率作为风险衡量的重要指标,传统的计量经济模型(GARCH、HAR-RV、ARFIMA)存在非线性拟合能力不足的问题。

- 深度学习中的LSTM模型具有强大的非线性特征学习能力,少有研究将其用于波动率预测。
  • 公众情绪文本信息作为波动率预测指标被创新引入,提高了预测信息的丰富性。



模型框架与方法论 [page::5][page::6][page::8]

  • 传统经济模型介绍:GARCH、HAR-RV、ARFIMA等。

- LSTM模型结构详解,包括遗忘门、记忆门和输出门的数学表达,及其长短时记忆能力示意。
  • 预测指标体系涵盖实际波动率、成交量、场内外情绪指标等内容:



  • 评估标准选用六大损失函数包括MSE、RMSE、MAE、MSLE、R²和RMSPE,确保效果多维度评价。



文本情绪因子构建 [page::10][page::11]

  • 利用Python爬取东方财富股民评论12万条,依托正、中、负面词汇进行两轮情绪标注,结合权重加权文本浏览量构造情绪因子。

- 情绪指标计算公式:

$$
Moodt = \frac{Mt^{pos} - Mt^{neg}}{Mt^{pos} + Mt^{neg}} \times \ln(1 + Mt)
$$
  • 构建的情绪指数被纳入高频波动率预测输入,反映投资者情绪对波动性的影响。



数据描述与特征重要性分析 [page::11][page::12]

  • 描述性统计显示收益率和波动率数据具有重尾、偏态和显著长记忆性,适合使用LSTM及相关模型。

- XGBoost特征重要性排名:


  • 公众情绪指标(Mood)作为关键预测变量之一,提高了模型对波动率的解释能力。



LSTM模型训练与参数调整 [page::13][page::14]

  • 采用滑动时间窗滚动预测,比较训练窗口10、20、30、40天,窗口20天时MAE和MSE最低,表现最佳。

- LSTM网络采用双层结构及Dropout避免过拟合,训练过程损失曲线收敛良好。

| 时间窗口 | MAE | MSE |
|----------|-------|-------|
| 10 | 0.227 | 0.456 |
| 20 | 0.219 | 0.437 |
| 30 | 0.224 | 0.447 |
| 40 | 0.242 | 0.481 |




不同预测模型比较及效果评价 [page::15][page::16]

  • 对比12种模型包括深度学习LSTM及多个传统计量模型,LSTM融合情绪指标模型(LSTM+M)在6个损失函数指标上均排名第一。

- LSTM+M相比传统ARFIMA模型在MSE、RMSE、MAE等指标分别提升约2.5%、1.3%、14.6%等。
  • 多步预测(第二步、第五步)结果表明LSTM模型更稳健,准确率下降幅度较小。


| 模型 | MSE | Rank | RMSE | Rank | MAE | Rank | MSLE | Rank | R² | Rank | RMSPE | Rank | 综合排名 |
|----------|--------|------|-------|------|-------|------|-------|------|-------|------|-------|------|----------|
| LSTM+M | 0.872 | 1 | 0.934 | 1 | 0.44 | 1 | 0.139 | 1 | 0.341 | 1 | 1.012 | 1 | 1 |
| LSTM | 0.961 | 2 | 0.98 | 2 | 0.469 | 2 | 0.153 | 2 | 0.316 | 2 | 1.218 | 2 | 2 |
| ARFIMA | 0.986 | 3 | 0.993 | 3 | 0.549 | 3 | 0.232 | 5 | 0.301 | 3 | 1.621 | 3 | 3 |
  • 预测极值能力明显更强,能更准确捕捉波动率峰谷形态。





结论及评论 [page::17]

  • LSTM结合文本情绪指标对高频波动率预测表现优异,精度和稳健性均优于传统计量经济模型。

- 情绪指标具有显著的正向影响力,验证了投资者情绪波动对市场风险的传导作用。
  • 研究为风险管理及衍生品定价提供了有力工具,推动了深度学习与文本挖掘技术在金融时间序列分析中的应用。

深度阅读

高频数据下基于文本挖掘和深度学习的股票波动性预测报告详尽分析



---

1. 元数据与概览


  • 报告标题: 高频数据下基于文本挖掘和深度学习的股票波动性预测

- 分析师/机构: 东兴证券金融工程团队,主要分析师高智威,研究助理贺争盛
  • 报告日期: 近期(未具体给出具体发布日期,但引用文献为2021年5月)

- 主题: 重点分析基于高频数据、结合网络文本情绪指标和深度学习技术,尤其是LSTM模型,对股票价格波动率的预测技术及其应用效果。
  • 核心内容与论点:

- 本报告属于海外文献速览系列之十六,介绍了Bolin Lei、Zhengdi Liu和Yuping Song发表的文献《On stock volatility forecasting based on text mining and deep learning under high-frequency data》。
- 该文献采用深度学习(LSTM)结合文本挖掘技术,将股东情绪指标纳入波动率预测模型,基于5分钟高频交易数据,实现了对实际波动率的多模型比较预测。
- 研究发现,带有文本舆论情绪指标的LSTM模型在六个评估指标(MSE、RMSE、MAE、MSLE、 $R^{2}$ 和 RMSPE)下均显著优于无情绪指标的LSTM模型及多种传统计量经济模型,预测准确性和稳健性均有所提升,且窗口长度设置为20交易日时获得最佳效果。
- 结论指出,文本情绪指标对波动率预测具有显著正向影响,深度学习在金融波动率预测领域具有潜力和实用价值。
  • 风险提示: 本报告内容基于文献回测数据,不构成投资建议,存在市场环境变化导致模型失效风险。[page::0]


---

2. 逐节深度解读



2.1 研究背景(第3页)


  • 报告指出资产风险常用波动率衡量,强调波动率研究在资产配置、风险管理及衍生品定价中的重要性。

- 传统模型如GARCH(1986年提出)、HAR-RV(Corsi 2009)、ARFIMA(Andersen等,2003)依赖低频或高频数据估计波动率,能部分解释波动率长记忆与聚集特征,但存在不能很好模拟非线性关系、缺少对交易信息与舆论等未来市场驱动因素的纳入限制。
  • 深度学习,特别是LSTM模型,因具备非线性拟合及数据特征自动学习能力,对金融时间序列预测表现突出。

- 文献创新点在结合公众舆论的文本信息作为波动率预测输入指标,这是以往研究较少探索的方向,利用文本数据挖掘投资者情绪。
  • 研究选用高频5分钟数据作为基础,融合舆论情绪与其他交易指标,利用LSTM模型建模波动率预测,验证了文本情绪提高预测准确性的假设。[page::3]


2.2 模型与研究方法(第4-9页)


  1. 传统计量经济学模型介绍

- GARCH模型:(公式在第4页)使用历史收益残差的条件异方差估算波动率,但缺乏对非线性关系和高频数据挖掘。
- HAR-RV模型:采用多时间尺度(日、周、月)波动率构建异构自回归模型,更好捕捉市场异质性和长记忆效应。
- ARFIMA模型:融合分形差分算子,刻画时间序列的长记忆性和自相关结构,适用于捕捉波动率的长期依赖特征。
  1. 深度学习模型-LSTM结构详解(图1,图2,页6-7)

- LSTM是一种改良的循环神经网络,主要通过三类门控机制(遗忘门、记忆门和输出门)控制信息流动和状态更新,有效克服了RNN在长序列训练中的梯度消失和爆炸问题。
- 公式详细展示了各门的具体运算逻辑和激活函数选择(Sigmoid和Tanh)。
- LSTM可从过去时间长度跨度内捕捉关键特征,实现长短期依赖的波动率多层次学习。
  1. 预测指标体系与评估标准(页7-9)

- 预测指标涵盖:实际波动率指标、交易量及衍生交易指标(成交量、变动率、BIAS、CDP、DMA、隔夜信息、高频交易量波动率)、场内情绪指标(AR、BR、换手率)及公众情绪指标(文本构建的情绪因子)。
- 采用六个损失函数综合衡量模型预测性能:均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、均方对数误差(MSLE)、决定系数($R^{2}$)、根均值平方预测误差(RMSPE),覆盖误差大小、误差稳定性及解释度多个层面。
  1. 实证步骤(页9)

- 计算文本情绪因子:利用网络爬虫抓取股民评论,分词后通过两轮情绪词库匹配给出权重化情绪值,用阅读量加权形成每日情绪因子。
- 计算5分钟高频实际波动率。
- 构建LSTM预测模型,根据数据特征调整超参数。
- 通过六个评价标准对比传统计量模型与深度学习模型带/不带文本情绪指标的预测性能。

这部分详尽展示了模型设计充分结合金融理论与机器学习技术,且预测指标多元化全面覆盖了多种驱动因素。[page::4,5,6,7,8,9]

2.3 实证分析(第11-17页)


  1. 数据选择与处理(页11)

- 以中国股市漫步者(002351)股票数据为样例,数据跨度2010年2月至2020年5月。
- 高频交易数据为每日48条5分钟收盘价,累计118,608条。
- 网络文本数据共12万条评论,分正面、中性、负面赋值,结合语义词库循环标注,增强文本情绪表达准确性。
  1. 文本情绪因子构建流程透明(图4,页10)

- 双轮标注结合通用及股票专用情绪词库,解决了传统词库在金融领域文本识别局限,情绪得分再以阅读数加权体现信息影响力。
  1. 实际波动率与数据统计描述(图5,页12)

- 说明了每日收益率、实际波动率及其平方根序列表现出尖峰厚尾和偏态分布,符合金融时间序列特征。
- JB检验拒绝正态性,Q统计和Hurst指数显示长记忆效应显著,确认适合使用长记忆模型(如ARFIMA、LSTM)。
- ADF测试结果表明序列平稳,保障模型估计有效性。
  1. XGBoost特征重要性分析(图6,页12)

- 以XGBoost计算各预测指标的重要性,发现股票价格变动率(change rate)、逆市指标(CDP)、隔夜价差等排名靠前。
- 公众情绪指标(Mood)在全部特征中排名第9,但仍具有显著贡献,验证了情绪因子纳入的有效性与必要性。
  1. LSTM参数选取与模型训练(图7、8、9、10,页13-14)

- 基于滑动时间窗技术,比较了窗口长度10、20、30、40,发现窗口为20天时验证MAE与MSE最低,平衡了训练数据量和无关数据干扰。
- 模型架构为两层LSTM加全连接层,带Dropout(0.2)防止过拟合。
- 优化器选用RMSprop,激活函数线性,评估函数MAE和MSE。
- 训练损失曲线展现训练与验证误差逐步收敛,显示良好训练效果。
  1. 不同模型预测表现对比(表4、图11-14,页15-17)

- 共比较12个模型,包括传统经济学模型:ARCH、GARCH(正态分布与t分布假设)、EGARCH、FIGARCH,HAR-RV,ARFIMA以及深度学习LSTM(带与不带情绪指标)。
- 结果显示:
- 带文本情绪指标的LSTM模型在全部六个损失函数评价标准中居于第一,综合排名第一。
- LSTM模型相比ARFIMA模型,在MSE、RMSE、MAE、MSLE、 $R^{2}$ 和 RMSPE 六指标分别提升2.5%、1.3%、14.6%、34.1%、4.9%、24.9%。
- 加入文本情绪指标后,LSTM模型的预测准确率分别进一步提升9.3%、4.7%、6.2%、9.2%、7.9% 和16.9%。
- 传统GARCH族模型表现次于ARFIMA和LSTM,尤其t分布误差假设下表现不佳。
- 多步预测分析表明,LSTM在多步(2步、5步)预测下表现稳健,准确率下降幅度较传统模型小,证明其长记忆特征拟合优势。
- 图14展示了五大预测模型的波动率及实际值对比,带情绪指标的LSTM更好拟合极端峰谷和极值波动,体现对市场急剧变动的预警潜力。

此部分数据充分验证了基于文本挖掘的情绪指标结合深度学习模型是提高波动率预测准确度和稳健性的有效方法。[page::11,12,13,14,15,16,17]

2.4 总结与点评(第17页)


  • 本文提出将网络股民评论文本转化为情绪因子,与高频交易数据结合,用LSTM模型进行波动率预测。

- 实证结果表明,文本情绪因子提高了预测模型对波动率非线性、长记忆特征的拟合能力,在多个误差指标和多步预测中均实现领先表现,超过传统计量模型。
  • 窗口长度设定为20交易日是该模型的最佳设置。

- 结合深度学习和文本挖掘的创新方法为金融时间序列分析带来新思路,尤其适用于风险管理和衍生品定价。
  • 点评指出,模型有效解决了传统模型难以捕捉非线性关系以及忽略投资者舆情的不足,提升了波动率分析精度,具有潜在应用价值。


---

3. 图表深度解读



图1 & 图2:LSTM结构及三“门”(页6-7)


  • 图1形象展示了连续多个记忆单元的结构,重点凸显细胞状态 \(C_t\) 的信息流转及门控机制。

- 图2详解遗忘门、记忆门与输出门的公式运作,说明信息筛选、保留与输出的数学逻辑。
  • 该结构能解决传统RNN的梯度消失,捕捉时间序列中的长短期依赖关系。

- 图形优雅呈现了LSTM模型的工作机制,支撑深度学习模型在金融波动率预测中发挥优势的理论基础。

图3:预测指标体系(页8)


  • 展示实际波动率、交易信息、场内情绪以及公众情绪作为波动率预测指标的综合构成。

- 交易信息细分为成交量、变化率等细指标,场内情绪包含AR、BR、换手率等,公众情绪指标基于舆论文本挖掘。
  • 体现多维度信息融合,弥补传统单一价格数据的局限。


图4:文本情绪指标处理流程(页10)


  • 流程清晰展现文本分词、两轮情绪标注及股票专用词库建立,提升情绪判定准确度。

- 说明文本预处理复杂度及针对性的词汇校正,强化情绪指标的市场敏感性。

图5:收益及波动率统计描述(页12)


  • 表格列出日收益率(R)、实际波动率(RV)及其开方序列的均值、波动率、偏度和峰度等统计量。

- 偏度大幅偏离0,峰度远高于3,均拒绝正态分布假设,符合尖峰厚尾及非正态波动事实。
  • ADF单位根显著,序列稳定适合模型应用。

- Hurst指数接近1,表明明显的长记忆特征,为ARFIMA和LSTM模型打下理论基础。

图6:XGBoost特征重要性(页12)


  • 以条形图显示各预测指标的贡献排序,“变化率”和“CDP”为最重要变量。

- 情绪指标“Mood”虽不居首,但重要性显著,说明文本情绪是不可忽视的辅助因子。
  • 图示支持作者文本情绪因子纳入的合理性与有效性。


图7 & 图8:滚动预测流程与时间窗口选择(页13)


  • 图7展示滑动窗口以前20天数据预测下一天,逐日滚动提升预测时效性与模型泛化。

- 图8的表格则显示不同窗口大小下MAE、MSE表现,明确20天窗口时误差最低,指导参数调优。

图9:LSTM参数设定(页14)


  • 明确训练集比例(95%)、验证集(5%),优化器(RMSprop),训练批次10,训练周期30,Dropout为0.2。

- 这套配置兼顾模型学习能力和防止过拟合。

图10:训练损失曲线(页14)


  • 曲线显示训练损失逐渐下降稳定,验证集损失轻微波动但整体趋势良好,表明模型训练过程正常、有效。


表4及图11-14:模型预测结果及排名(页15-17)


  • 表4给出了12个模型在六种评估标准下的预测误差和排名,LSTM+M(带情绪指标的LSTM)全面领先。

- 图11以可视化形式展示模型在不同指标下排名,有助快速感知模型优劣。
  • 图12、13分别展示第二步和第五步多步预测下模型表现,LSTM模型依旧保持稳定优势。

- 图14展示真实波动率与五大最佳模型预测对比,明显看出LSTM+M曲线更贴合实际峰谷波动,特别对极端值预测准确度明显领先。

整体图表体现该研究严谨而全面,数据和模型之间的逻辑架构清晰,分析结果支持主要结论。

---

4. 估值分析



本报告主要聚焦于波动率预测模型的技术创新与效果比较,不涉及具体的公司估值或目标价格设定,因此无估值分析部分。

---

5. 风险因素评估


  • 市场环境变化风险: 文中明确指出模型基于历史数据回测,未来市场若出现重大结构性变化或黑天鹅事件,模型预测能力可能大幅下降,存在失效风险。

- 文本情绪指标实际应用局限性: 投资者情绪受到多因素影响,语言表达多样且带有噪声,情绪词库构建和文本处理偏差可能影响指标准确性。
  • 数据覆盖与代表性风险: 研究以一个股票(漫步者)作为案例,样本代表性和泛化效果有待进一步验证。

- 技术模型参数选择风险: LSTM模型超参数选择依赖验证集表现,可能存在过拟合或模型不稳定性风险。

报告未特别提出缓解策略,主要强调投资者应警惕模型局限,仅作为辅助工具。

---

6. 批判性视角与细微差别


  • 报告整体基于学术文献和实证数据,论证过程严谨,实证细节充分解读,数据统计和模型评价多维度且全面。

- 但在以下方面仍存潜在局限:
- 单一标的局限: 研究仅以单只股票数据进行测试,高频文本和交易数据的特征可能因行业/市场不同而异,外推至整个市场需谨慎。
- 情绪指标构建偏差: 虽采用两轮标注方法,情绪识别依旧依赖固定词库和加权规则,忽略了语言语义深层次特征,如讽刺、隐晦表达,对情绪复杂性的捕捉可能不足。
- 模型复杂性解释性: LSTM为“黑箱”模型,预测准确性虽高,但对投资者而言解释性差,难以理解偏差来源及突发异常因素影响。
- 对比模型偏差: 传统计量经济模型主要使用历史波动数据,未纳入情绪指标,可能导致对比优势放大。
- 多步预测中准确率下降趋势: 尽管LSTM表现稳健,但多步预测仍显准确率下降,实际长期预测能力仍有局限。

该报告未就上述不足详细讨论,作为综述及检测文献速览,较为合理,但在模型推广前需多维验证。

---

7. 结论性综合



本报告系统分析了海外学术文献中基于高频数据、文本情绪因子和深度学习LSTM模型联合进行股票波动率预测的创新方法。报告重点如下:
  • 高频波动率预测历来依赖传统计量经济模型(GARCH族、HAR-RV、ARFIMA),存在汇聚效率不佳及难以反映复杂非线性和外生信息短板。

- LSTM因天然具备长短期记忆捕捉能力,结合文本挖掘技术,把投资者情绪转化为带权重的综合情绪因子,显著增强了波动率预测模型的信息维度和准确性。
  • 多种实证统计结果(Descriptive Stats、特征重要性、损失函数指标、传统模型PK)均明确显示带情绪指标的LSTM模型效果最优,尤其在多步预测及极端值捕捉方面卓越,提升幅度涵盖9.3%-34.1%,稳健性强。

- 预测指标体系和模型参数选取合理,特别是20天的滚动时间窗优化了模型训练,平衡数据实现最佳预测效果。
  • 报告提供了一个基于深度学习和文本挖掘的波动率预测框架,不仅填补了情绪指标波动率预测的研究空白,也为金融风险测度、资产配置和衍生品定价提供了理论与实用双重支持。


综上,该研究充分体现了前沿技术(深度学习+文本挖掘)在金融时间序列分析中的创新应用价值。该方法结合了市场行为心理层面和量化价格信息,弥补了传统模型的不足,提供更有效的股票波动率预测解决方案,具有重要的理论意义和实际应用潜力。[page::0,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17]

---

参考文献



Bolin Lei, Zhengdi Liu, and Yuping Song. "On stock volatility forecasting based on text mining and deep learning under high-frequency data." Journal of Forecasting (2021).[page::18]

---

附图索引


  1. — LSTM结构示意图

2. — 预测指标体系
  1. — 文本情绪指标处理流程

4. — XGBoost特征重要性排名
  1. — 滚动预测示意图

6. — LSTM模型损失曲线
  1. — 样本外预测最准确模型比较(MSE指标)


---

总结: 本报告通过系统剖析结合高频数据、文本情绪指标与深度学习的波动率预测前沿研究,展现了金融资产风险量化领域的重要突破,充分反映了多学科方法融合的深厚潜力和实践意义,并为投资管理和风险控制提供了先进技术路径。[page::0~18]

报告