新闻舆情分析的 HAN 网络选股
创建于 更新于
摘要
本文采用混合注意力机制网络(HAN)对沪深300个股多日、多条新闻舆情文本进行深度挖掘,构建包含词语注意力、新闻注意力和时间注意力三层的神经网络模型,实现对未来一日股票涨跌的预测。基于HAN网络构建的TopK-Dropout选股策略在2019年至2022年区间表现出年化超额收益15.96%。通过删除不同注意力模块的对照试验,验证新闻与时间注意力对选股效果影响显著,词语注意力影响较小。注意力系数分析显示模型能有效聚焦于高信噪比词汇和直接关联新闻,体现较好的模型解释性。报告最后指出当前模型仍有提升空间,未来可引入自步学习、自注意力预训练模型等方法以优化表现 [page::0][page::3][page::24][page::25]
速读内容
- HAN网络结构三层注意力机制模拟人类舆情解读:词语注意力集中关键字,新闻注意力区分信息量差异,时间注意力权重近日期新闻,整体结构包括词嵌入、词语/新闻/时间注意力、双向GRU及多层感知机判别网络 [page::4][page::5][page::7][page::8][page::9][page::10]





- 实证数据与训练设置:
- 文本来源万得FinancialNews,按日期和舆情时间剔除时效性不符样本;每日最多5条新闻,新闻长度最大200词,词向量300维
- 分类标签为未来一日涨跌(上涨、震荡、下跌)
- 训练使用中国通用预训练词向量Chinese-Word-Vectors,采用tensorflow实现,训练迭代步数与batchsize设置保证训练效率 [page::11][page::12][page::18]

- TopK-Dropout选股策略回测显著优于基准,年化超额收益15.96%
- 首日选取表现最优的K=30只股票,后续每日剔除组合中得分最低股票并加入得分最高的股票
- 回测时间为2019-01-02至2022-03-31,手续费双边千三影响较小
- 不同注意力模块对比显示词语注意力影响小,新闻和时间注意力缺失导致收益丧失
- 日均换手率约6.5%,年化约16次,训练过程中准确率约37%,损失稳定下降至较低水平
- K值敏感性试验显示20/30/40均表现稳健,30最优 [page::14][page::15][page::16][page::17][page::18]




- HAN日频因子IC分析及分层测试:
- 实验组IC均值0.0154,IC_IR0.126,表现明显强于词语注意力缺失和无新闻、无时间注意力成分的对照组
- 分层回测显示第一层(多头端)收益显著,长期超越基准且较为稳健,其他层区分度较弱,指示模型对新闻舆情覆盖度较低股票区分能力不足
- 因子有效性虽有限,但多头端信号明显,适合构造选股策略 [page::19][page::20][page::21]


- 注意力系数可解释性分析:
- 词语注意力聚焦在含义明确、情感倾向强的词汇,如“符合”“加速”“利好”,对专有名词关注度较低;存在金融词汇权重分配不理想的问题,可能因预训练词向量未专门针对金融语料
- 新闻注意力显著倾向突发事件及个股直接相关报道,行业点评类新闻权重较低
- 时间注意力分配符合预期,近日期新闻权重更高但差异不大,提示模型时序模块仍有优化空间 [page::21][page::22][page::23]

- 总结与展望:
- HAN网络通过模拟人类阅读新闻的“顺序依赖”和“多样化影响”,有效提取舆情信息,辅助短期股价涨跌预测,构建的TopK-Dropout策略提升明显
- 三重注意力模块缺一不可,且词语注意力相对重要性最低;模型解释性良好但仍有提升空间
- 未来方向建议引入自步学习机制、BERT等更强的文本编码方式,进一步提升模型效果和实用性 [page::24][page::25]
深度阅读
新闻舆情分析的 HAN 网络选股报告详尽分析
---
一、元数据与概览
- 报告标题: 新闻舆情分析的 HAN 网络选股
- 发布机构: 华泰证券研究所
- 发布日期: 2022年4月23日
- 研究团队及联系方式: 林晓明、李子钰、何康博士等
- 研究主题: 基于深度学习混合注意力机制网络(HAN,Hybrid Attention Networks)对新闻舆情数据进行挖掘,以预测个股短期走势并构建选股策略,聚焦沪深300股票池
核心论点与目标
该报告主要探讨利用人工智能中的注意力机制,通过模拟人类在阅读新闻舆情时的“顺序内容依赖”和“多样化影响”,提出了一种混合注意力机制网络HAN,对不同时间、不同新闻文本进行加权挖掘,构建股票的涨跌预测因子“HAN日频因子”,并以此进行沪深300股票池选股实证,取得显著超额收益。值得注意的是,该模型由词语注意力、新闻注意力和时序注意力三层模块组成。模型通过TopK-Dropout策略持股组合,回测区间内(2019年1月3日至2022年3月31日)实现相较沪深300等权组合约15.96%的年化超额收益[page::0,3,11,15,17,19,21,24]。
---
二、逐章节详解
研究背景与问题描述
- 报告首先说明了另类数据(非传统的价量财务数据),如新闻舆情,在投资决策中的价值及获取难度。
- 以往对新闻舆情的挖掘多为单条文本处理,缺少跨新闻、跨时间的综合考量,这与人类实际信息处理习惯和认知需求存在差异。
- 该报告提出使用注意力机制模拟人类认知过程,捕捉新闻文本中关键内容和时间多样化影响,构建能处理同一日多条新闻、不同日期新闻的混合注意力网络HAN[page::3]。
HAN混合注意力机制网络原理
模型思想
- 顺序内容依赖(Sequential Context Dependency):人类对个股新闻非单条解读,而是对时间序列新闻综合评估,预测趋势。
- 多样化影响(Diverse Influence):不同词语、不同新闻重要性差异较大,如高信噪比词语和分析师点评相较市场表现新闻影响力更大。
- HAN模型融合这两种原则,将词语、新闻和时间三层注意力结合,实现多角度加权挖掘[page::4]。
模型结构
- 原论文模型包含词嵌入、新闻层级注意力、时间层级注意力和双向门控循环单元(BiGRU)等模块。其中,华泰研究团队特别增加了词语注意力机制(图表2),使得模型在词级别也能刻画不同词语的重要性,以更细粒度解析新闻文本[page::4,5]。
词嵌入层
- 传统one-hot编码维度高且不表达词语语义关系,报告采用基于上下文的预训练词向量(如Skip-gram),降低维度且保留词语语义相似性。
- 以“复旦大学”示例通过余弦相似度计算词语关联性,结合PCA降维可视化,验证词向量具有良好的词义表达能力(图表3)[page::5,6]。
词语注意力机制
- 模仿机器翻译中的注意力(Bahdanau注意力),HAN计算每个词的权重,通过sigmoid函数后softmax归一化得到权重γi。
- 加权词向量求和形成该条新闻的语义表示。
- 这种机制使模型能够聚焦关键字,如“加速”、“利好”,抑制无关或低信噪比词语(图表4、5)[page::7,8]。
新闻注意力机制
- 对同一天多条新闻分别计算权重,反映不同新闻对股价预测的差异影响,重点赋予分析师点评类或与个股关联度高的新闻更大权重。
- 计算方式等同于词语注意力,但此处对新闻向量加权(图表6)[page::8]。
双向门控循环单元 (BiGRU)
- BiGRU能有效处理时间序列新闻信息,解决传统RNN梯度消失问题。
- 通过重置门(rt)和更新门(zt)控制状态信息的传导,捕获长短期依赖。
- 双向设计可同时捕获过去和未来信息,适合回顾一段时间新闻来预测股价走势(图表7、8)。
- 说明这是利用过去N天新闻数据,且未来信息仅相对过去时间而言,不违反因果原则[page::9]。
时间注意力机制
- 对跨天新闻信息再赋权,重点关注近期或关键日期的新闻,模仿人类对新闻时效性的关注。
- 通过权重βi加权BiGRU输出,得到整体股票舆情向量V(图表9)。
- V输入判别多层感知机,输出未来股价涨跌预测概率(图表10)[page::10]。
HAN网络选股实证
数据源与样本处理
- 新闻舆情数据取自Wind FinancialNews表,时间跨度2015年至今。
- 由于新闻入库时间晚于发布时间,剔除发布日期与入库日期不同的样本,保证时效性。
- 标注情感标签大部分缺失,因此文本标题和摘要拼接形成文本输入。
- 样本标签为次日涨跌分类,使用过去10个自然日内每天最多5条新闻,并对文本长度、词向量维度等进行限制包装(图表11,12)[page::11,12]。
实验组设计与参数
- TensorFlow构建HAN网络,词向量300维,新闻最长5条,文本最大词数200。
- 训练采用交叉熵损失,按日频基于开盘价计算涨跌类别,训练中epoch固定200步迭代确保效率。
- 新闻不足5条采用padding处理,标签分三类(上升、震荡、下跌)。
- 对网络结构中词语、新闻、时间三个注意力模块分别设置对照组(删除某个模块,替换为均值加权)来检验注意力机制效果(图表13至15)[page::12,13,14]。
仿真策略设计:TopK-Dropout策略
- 初始持仓前一日Top K预测得分最高股票组合,后续每日用最新得分剔除持仓分数最低股票,加入组合外得分最高股票,动态调整组合,K固定30。
- 训练集和测试集区分,2016-2018训练,2019-2020首次测试,2018-2020再训练,2021-2022测试,合并回测区间为2019-2022年。
- 交易手续费双边千三计入[page::15].
回测结果与对照组分析
- 实验组Top30-Dropout策略表现优异,累计净值远超沪深300等权组合,手续费影响较小(图表17,18)。
- 对照组(删除某些注意力模块)表现显著下降,特别是新闻和时间注意力模块缺失时,策略失去超额收益,接近基准(图表19-26)。
- 词语注意力模块缺失导致收益下降约2%,影响最小,但仍有提升空间。
- 换手率稳定平均双边6.5%,年化约16次(图表28,29)。
- 训练准确率和损失函数稳定,约20轮达到收敛(图表30,31)。
- 不同K值(20、30、40)表现类似,K=30综合表现最佳,最大回撤和收益均衡(图表32-34)[page::15-18].
HAN日频因子IC测试
- 以预测涨概率作为因子,计算日频收益与因子值皮尔森相关系数IC。
- 未行业市值中性处理,因沪深300股票池已相对同质。
- 实验组日频IC均值为0.0154,ICIR(稳定性指标)为0.126,虽不算强因子但表明一定有效性。
- 新闻和日期注意力模块缺失时因子IC显著下降,词语注意力缺失影响较小(图表35-37)[page::19]。
分层回测验证
- 将股票按因子值分5层,回测5层净值,最高层表现明显优于低层,支持多头有效性。
- 非多头层区分度一般,因新闻覆盖度参差导致部分股票信息缺失,难以区分(图表38-43)[page::20,21].
注意力权重可解释性分析
- 词语注意力模块:对关键词如“符合”、“加速”、“利好”等赋予高权重,专有名词如“多晶硅”、“华宝”权重低; 但对部分金融专用词“景气”、“回暖”关注不足,推测与词向量预训练语料与金融领域不匹配有关(图表44-46)[page::21,22]。
- 新闻注意力模块:突发事件和直指个股新闻权重高,行业点评类或宏观新闻权重较低,逻辑符合直觉(图表47-49)[page::22,23]。
- 时间注意力模块:权重随着新闻时间递减,近期新闻关注度最高,但整体差别不大,10日内权重浮动为10%左右,表明模型对时间敏感度有限,还有提升空间(图表50)[page::23]。
---
三、图表深度解读
- 图表0(首页):"HAN网络选股相对300等权超额净值图"
描述了Top30-Dropout策略的相对净值绩效,净值表现稳步增长,显示出明显超额收益,幅度达50%以上,且回撤合理,体现了模型强劲的选股能力。[page::0]
- 图表1和2(页4-5):HAN网络结构图
清晰展示HAN的多层次架构,从词嵌入到词语、新闻、时间注意力层,再经过双向GRU和判别网络完成预测。增加词语注意力后,模型从文本结构底层实现了更细移的权重分配,更贴合人类认知。[page::4,5]
- 图表3(页6):词向量可视化
通过PCA降维展示不同词在语义空间中的集群分布,验证词向量的语义关联性,为后续词语注意力权重分配提供基础。[page::6]
- 图表4-6(页7-8):词语与新闻注意力示意图
说明权重计算与加权方式,确保对不同词语及新闻的差别化关注,使模型能动态调整重点内容输出新闻及天级向量。[page::7,8]
- 图表7-8(页9):GRU和双向GRU结构图
展示门控机制的内部计算流程,以及双向处理序列信息的设计,接纳双时间向度,实现对新闻时间序列的高效捕捉。[page::9]
- 图表9-10(页10):时间注意力和判别网络结构图
突出时间权重对不同日期新闻的调节和最终分类输出层设计。[page::10]
- 图表12(页12):TensorFlow具体网络实现图
针对模型输入输出维度精确描绘,体现网络各级掩码和权重层配置,便于理解数据流及注意力模块交互。[page::12]
- 图表14(页13)至图表27(页16):对比实验与TopK-Dropout回测绩效图
多对照组回测绩效图形逼真反映不同注意力模块对结果的影响。实验组显著优于无注意力模块的对照组,新闻和时间注意力模块的重要性尤为突出。最大回撤和年化收益对比显示模型有效稳健。[page::13-16]
- 图表28-31(页17):换手率和训练准确率、损失函数
显示交易频率和模型训练收敛情况。日换手率稳定,说明策略交易行为合理;训练准确率和损失曲线稳定,模型训练过程表现良好。[page::17]
- 图表32-34(页18):不同K持股数回测绩效比较
指出选股组合规模敏感度较低,K=30获更佳平衡收益和风险,策略稳健性得到保障。[page::18]
- 图表35-37(页19):日频IC序列及累计IC对比
展示因子预测能力及模型有效性。实验组IC表现明显优于无词、无新闻、无时间注意力对照组,凸显多级注意力对因子预测作用的重要贡献。[page::19]
- 图表38-43(页20-21):因子分层收益回测
分层回测验证模型多头端因子的强区分能力,尽管整体IC不高,顶部因子表现突出,体现模型目标定位正确且实用性强。[page::20,21]
- 图表44-49(页21-22):词语和新闻注意力权重示例
通过具体样本词语和新闻条目颜色深浅展示,揭示模型对高信噪比词和突发、个股密切相关新闻的关注规律,具备一定可解释性。[page::21,22]
- 图表50(页23):时间注意力系数统计
显示模型确实重视近日期新闻,但权重差异相对平缓,提示未来优化方向可能为加强时间层判别力。[page::23]
---
四、估值分析
报告未具体涉及传统财务估值方法或目标价计算,主要聚焦基于舆情文本的因子构建和预测模型,进而通过回测验证策略效益,没有涉及DCF、P/E或EV/EBITDA等财务估值模型[page::0-25]。
---
五、风险因素评估
报告明确指出:
- 基于深度学习模型的选股策略是对历史数据的学习总结,存在失效的风险,未来表现无法保证。
- 深度学习模型可解释性较差,使用时需谨慎。
- 量化因子效果受宏观环境及大盘走势影响,投资者不可简单依赖历史数据推断未来。
- 注意力权重存在不足,如词向量预训练语料库与金融领域贴合度有限导致专用词关注不足。
- 仍存在参数和网络结构改进空间,比如未采用本文未实现自步学习机制等优化路径[page::0,25]。
---
六、批判性视角与细微差别
- HAN网络明显依赖注意力机制的有效配置,但词语注意力模块带来的性能提升相对较小,说明底层文本表达(词向量)和网络设计尚有提升空间。
- 预训练词向量非专业金融语料可能限制了模型对行业专用词的解读精准度,如“景气”、“回暖”权重分配不足。
- 时间注意力虽体现了一定的递减趋势,但实际权重差别较小,表明时间特征的区分能力仍可优化。
- 尽管多头端收益明显,但因子整体IC指标并不算高(ICIR仅0.126),暗示模型可能还不能全方位识别所有股票走势,尾部(信息少的股票)效果较弱。
- 实证结果存在一定参数敏感性,未必展现了网络结构下的最优表现。
- 报告未探讨模型在不同宏观环境下的表现差异,也未涵盖行业或风格中性影响[page::21,23,25]。
---
七、结论性综述
本报告由华泰证券研究团队基于混合注意力网络(HAN)提出了一种结合词语、新闻和时间多层注意力机制的舆情文本分析模型,用以预测个股短期涨跌并构建选股策略。该模型突出模拟了人类对新闻信噪比及时间相关性的自然认知,有效加权提高关键信息识别能力。
实证结果显示:
- HAN选股策略在沪深300池范围内表现稳健,基于TopK-Dropout策略的组合获取约15.96%的年化超额收益,远超等权基准。
- 注意力机制缺失时模型表现明显下降,特别是新闻和时间层面的注意力,印证了多级注意力关键性。
- 词语注意力虽然贡献较小,但对提升模型细粒度理解仍有重要意义。
- 日频因子预测的IC值虽不高,但多头端因子分层回测表明对潜力股票的识别有效,具备实际选股应用价值。
- 注意力分析揭示模型聚焦于实质性关键词和与个股高度相关的新闻条目,且时间上更关注近期新闻,符合预期,也帮助发现预训练词向量及时间敏感度的不足之处。
- 报告指出了模型优化潜力,如引入自步学习和BERT编码等前沿NLP技术以改善输入表达和训练流程,提升选股精度。
- 风险提示表明基于深度学习的策略依赖历史数据,受经济和市场波动影响较大,需审慎应用。
图表支持:
- 回测净值和相对基准曲线(图表0,17-27)直观展现策略超额收益和风险特征。
- 注意力结构图和权重示意图(图表1-10,44-50)清晰揭示模型设计和内部逻辑。
- IC及因子分层回测图(图表35-43)提供了因子预测能力的直观量化衡量。
- 训练过程图(图表30-31)体现了模型稳定收敛的特性。
- 词向量可视化及网络结构实现图(图表3,12)助力理解技术细节。
综上所述,华泰证券研究团队使用HAN混合注意力网络,在新闻舆情文本挖掘和短期个股走势预测领域取得了有价值的进展,提出了一种结合多层注意力机制的创新文本选股框架,丰富了基于另类数据和深度学习的量化投资方法论,为投资决策提供了新的技术路径和实证支持[page::0-25]。
---
(以上所有结论均基于报告原文内容和数据支持,页面标注以便追溯。)