新闻舆情分析的 HAN 网络选股
创建于 更新于
摘要
本文构建了基于混合注意力机制的HAN网络,通过词语、新闻和时序三层注意力机制,结合沪深300股票池新闻舆情数据,实现对个股短期涨跌的预测。TopK-Dropout策略回测显示,HAN网络显著优于沪深300等权基准,年化超额收益达15.96%。三模块注意力对因子有效性贡献不同,词语注意力影响较小,新闻和时序注意力显著。注意力系数分析验证模型在重点词语、新闻和近时新闻上的聚焦效果,提示HAN模型具备一定可解释性且具备进一步优化空间[page::0][page::24]。
速读内容
HAN网络结构与注意力机制原理 [page::4][page::5]


- HAN网络通过词语注意力、新闻注意力、时序注意力三层机制模拟人类对新闻信息的聚焦和理解。
- 使用词嵌入技术将新闻文本转为300维向量,结合双向门控循环单元(BiGRU)捕捉时间序列信息。
- 通过加权求和方式,将不同词、新闻和时间点的重要性动态调整,提高模型预测准确性。
新闻文本词向量与注意力机制 [page::6][page::7][page::8]



- 利用Skip-gram模型预训练词向量,体现词语语义相似性,预训练词向量能够合理区分同类词汇。
- 词语注意力机制通过神经网络层计算每个词权重,重点关注含有信息的高信噪比词汇,提高新闻表征能力。
- 新闻注意力机制对同一天不同新闻赋予不同权重,强调信息量和相关性高的新闻。
BiGRU与时序注意力机制 [page::9][page::10]



- 使用双向门控循环单元(BiGRU)捕捉新闻序列的双向时间依赖性,提取时间动态特征。
- 时序注意力机制增强对不同日期新闻影响力的关注度,反映距离当天时间远近对预测的不同权重。
- 最终多层感知机深度预测个股短期上涨、下跌或震荡概率。
实证测试:数据源与网络结构参数设定 [page::11][page::12][page::13]

- 新闻数据来自Wind Financial_News表,样本内新闻覆盖度达90%以上,保障因子稳定性。
- 模型超参数包括过去10天新闻、每天选择5条新闻、新闻词数200、embedding维度300,训练30轮,batch size64。
- 优化器采用AdamWeightDecay,训练采用early stopping,保证训练质量和时间效率。
注意力机制对照实验设计及结果 [page::13][page::14][page::15][page::16][page::17]




| 实验组 | 区间收益 | 年化收益 | 最大回撤 | 夏普 | 年化超额 |
|---------|--------|--------|--------|------|--------|
| HAN原型网络 | 119.20% | 28.73% | 24.45% | 1.16 | +15.96% |
| 无词注意力对照 | 107.61% | 26.50% | 16.90% | 1.06 | +13.95% |
| 无新闻注意力对照 | 27.93% | 8.25% | 31.96% | 0.33 | -2.47% |
| 无时序注意力对照 | 44.80% | 12.65% | 25.95% | 0.52 | +1.49% |
- 去除新闻注意力和时序注意力模块后选股效果大幅下降,词语注意力影响相对较小。
- HAN选股策略具有显著的日频超额收益,且交易手续费冲击较小,日均换手率约6.5%。
策略规模敏感性与训练表现 [page::18][page::17]


- TopK-Dropout策略对股票池规模参数K不敏感,在20-40之间,K=30时回测表现最佳。
- HAN训练准确率与损失函数稳定,约20轮训练后趋于平稳。
HAN因子IC与分层性能 [page::19][page::20][page::21]


| 分层 | 1 | 2 | 3 | 4 | 5 |
|------|---|---|---|---|---|
| 实验组收益 | 29.08% | -8.68% | -0.73% | -16.66% | -31.00% |
- HAN因子IC均值微弱为正(0.0154),IC IR为0.126,显示有效但强度有限。
- 多头端收益明显,其他分层区分度较弱,反映模型主要在高舆情覆盖股票中表现优异。
注意力权重可解释性分析 [page::21][page::22][page::23]

- 词语注意力对高信噪比词赋予较大权重,对专有名词权重较低,存在过低关注金融术语的问题。
- 新闻注意力对事件型新闻及个股相关描述新闻权重较高,对行业点评新闻关注较低。
- 时间注意力表明模型更关注近10天内的新闻,且近几天新闻权重略高,但整体时间分布较均匀。
深度阅读
新闻舆情分析的 HAN 网络选股 —— 华泰研究报告详尽分析
---
1. 元数据与概览
- 标题:《新闻舆情分析的 HAN 网络选股》
- 发布机构:华泰证券研究所(华泰研究)
- 发布日期:2022年4月23日
- 主题:通过混合注意力机制网络(HAN)对股票新闻舆情进行文本挖掘,预测个股短期走势,构建选股策略。
- 研究员:林晓明、李子钰、何康(PhD)等
- 核心论点:
- 利用混合注意力机制网络(HAN,Hybrid Attention Networks)模拟人类对新闻舆情的认知过程,从词语、新闻和时序三个层面赋予不同权重,提取有效信息。
- 以沪深300股票池为样本,构建TopK-Dropout选股策略,实现显著的超额收益,年化超额达15.96%。
- 注意力机制对模型效果至关重要,其中新闻和时间注意力影响最大,词语注意力影响较小但有助提升。
- 通过详细注意力系数分析,对模型可解释性和后续改进提供方向。
- 风险提示:深度学习模型基于历史经验,有失效风险,人工智能模型解释性较低,投资需谨慎。
总体而言,报告主要意在介绍 HAN 网络的结构与原理,展示其在中国A股沪深300范围内的实证效果,以及模块间的效用差异,系统评估其在舆情文本选股领域的应用价值及潜力。[page::0,3,24,25]
---
2. 逐节深度解读
2.1 研究背景与目标(第3页)
- 关注点为另类数据在投资中的应用—尤其是新闻舆情这类非结构化、多样化的数据资源,强调传统单条文本处理不足。
- 唯一视角的舆情理解难以捕捉重要信息的多样影响及时间序影响。
- HAN网络设计模仿人类在阅读新闻时“顺序内容依赖”(例如更关注近日期新闻)和“多样化影响”(即区分新闻、词语影响力不同)。
- 本文目标:介绍HAN结构、实证A股适用性、注意力模块对比试验及解释分析。(综述为后文奠定理论基础)[page::3]
2.2 HAN混合注意力机制网络原理(第4-10页)
模型思想:
- 核心为捕捉新闻信息的多层次结构:
- 词语注意力:赋予关键信息词更高权重;
- 新闻注意力:区分不同新闻对股价预测的影响力;
- 时间注意力:区别不同日期新闻的重要性,重视更近重要新闻。
- 使用双向GRU神经网络处理新闻时间序列,实现“顺序内容依赖”。
- 改良原论文,加入词语注意力模块提升词义区分度。[page::4]
模型结构(二图表解析):
- 图表1(原论文版网络结构):包括词嵌入、新闻注意力、时间注意力、判别网络。
- 图表2(增加词语注意力机制):引入词语级注意力,体现词层级关键性赋权。
- 任务定义为利用过去N天新闻(每日L条,词数M)预测股票未来一天涨跌,样本输入结构为
[N x L x M]
词向量序列。[page::4-5]
词嵌入(第5-6页)
- 传统one-hot编码高维且无语义表示。
- 采用词嵌入技术基于上下文训练词向量,捕捉词间相似度和语义关系。
- 主要方法:Skip-gram模型(给定中心词预测上下文词概率最大化),以及CBOW;训练过程使用负采样和梯度下降优化参数。
- 数据预处理:使用Python jieba分词,转化成300维预训练中文词向量(Chinese-Word-Vectors)。
- 测试验证词嵌入的合理性,例如“复旦大学”近似“北京大学”等,词义相似度有效表现。
- 图表3展示词向量降维二维空间投影,体现词语聚类和语义邻近。[page::5-6]
词语注意力机制(第7-8页)
- 源于机器翻译中的“Attention机制”,核心思想为生成语境向量时给予不同词不同权重。
- HAN将词向量通过神经网络计算注意力权重,softmax归一化后加权,形成新闻向量表达。
- 数学形式:
- 词权重 $ui = sigmoid(Ww wi + bw)$
- 权重归一化 $\gammai = \frac{exp(ui)}{\sumj exp(uj)}$
- 新闻向量 $n = \sumi \gammai wi$
- 图表4和5分别展示经典机器翻译注意力模型结构和词语注意力机制结构示意。[page::7-8]
新闻注意力机制(第8页)
- 类似于词语注意力,衡量一日内不同新闻的重要性差异。
- 通过神经网络计算每条新闻向量的权重,结果归一化后形成日期向量。
- 形式:
- 新闻权重 $vi = sigmoid(Wn ni + bn)$
- 归一化 $\alphai = \frac{exp(vi)}{\sumj exp(vj)}$
- 日期向量 $d = \sumi \alphai ni$
- 图表6展示新闻注意力机制结构。[page::8]
双向门控循环单元 (BiGRU)(第9页)
- 处理时间序列,克服标准RNN梯度消失问题。
- GRU实现简单但效果良好,包含重置门 $rt$ 和更新门 $zt$,控制信息保留与更新。
- BiGRU实现并行处理正向和反向序列,提取更多上下文信息。
- 计算公式详解,图表7和8展示单元内部结构及双向结构。[page::9]
时间注意力机制(第10页)
- 基于BiGRU输出每日信息向量 $hi$,通过神经网络计算不同时序(日期)的权重 $\betai$ ,加权形成整体新闻序列表示 $V$。
- 形式:
- 时间权重 $oi = sigmoid(Wd hi + bd)$
- 归一化 $\betai = \frac{exp(oi)}{\sumj exp(oj)}$
- 加权和 $V = \sumi \betai hi$
- 图表9展示时间注意力示意。
- 最终通过多层感知机(图表10)对向量$V$判别,输出未来涨跌(分类)概率。[page::10]
2.3 HAN网络选股实证(第11-24页)
新闻舆情数据源(第11-12页)
- 利用Wind Financial
- 新闻数据带股票代码、标题、摘要、情感倾向(部分新闻)等字段,标题与摘要拼接作为文本输入。
- 样本选择沪深300成分股,考虑新闻时间跨度及数据质量。[page::11-12]
实验设计及超参数(第12-14页)
- Tensorflow实现,关键超参数(图表13):
- 新闻回看天数N=10,自然日内最多5条新闻,每条新闻200词
- Word Embedding维度300
- BiGRU输出维度600,全连接层800
- BatchSize=64,训练epoch=30,每epoch 200步,优化器AdamWeightDecay,学习率1e-4
- 分类标签为$t+1$交易日股票涨跌,通过上下三分位数分为“涨”、“震荡”、“跌”三类,交叉熵损失函数训练。
- 对照组设计,分别取消词语/新闻/时间注意力模块,用平均权重取代softmax加权,验证注意力模块的重要性(图表14、15详细展示)。[page::12-14]
TopK-Dropout 策略(第15-18页)
- 回测区间:2019-01-02至2022-03-31,初始选择得分最高K=30只股票,等权持有。
- 每日剔除持仓里得分最低股票,引入未持仓中得分最高股票,实现动态调仓。
- 交易费用双边千三。
- 回测结果(图表17、18):策略净值持续领先沪深300等权基准,年化超额收益15.96%,最大回撤低于同期波动,夏普比率等风险指标良好。
- 对照组回测(图表19-26):词语注意力缺失影响较小,两个模块全部缺失则模型选股效果显著下降,大幅降低收益。
- 换手率约6.5%,年化约16倍,交易压力适中。
- 多种K值(20,30,40)回测(图表32-34)显示稳健性,K=30表现最佳。[page::15-18]
HAN 因子 IC 测试(第19页)
- 使用HAN 输出上涨概率作为因子值,计算与后一期开盘涨跌的相关系数IC,不做市值及行业中性处理。
- 实验组IC 序列显示因子有效,IC均值0.0154,IC_IR 0.1260,因子有效性较低但显著优于对照组,且新闻与时间注意力影响较大。
- IC的非多头端表现一般,说明模型对非热点股票信息提取有限,有望优化强化。[page::19]
HAN 日频因子分层测试(第20-21页)
- 将沪深300股票池根据因子值分为5个层级,计算分层收益,绘制累计净值。
- 结果显示多头层(最高层)收益明显优于基准,表明因子对优质股票排序能力强。
- 低分层非多头端效果一般,符合上述IC分析。
- 对照组因子分层效果较弱,验证模型模块设计合理性。[page::20-21]
注意力系数分析(第21-23页)
- 词语注意力:
- 模型赋予实际含义词较高权重(如“符合”、“加速”、“打破”等),说明模型能捕捉情感信息。
- 专有名词权重较低,如公司名、行业词汇,这符合其对趋势判断的有限作用。
- 部分金融领域词汇如“景气”、“回暖”权重较低,或因预训练词向量缺乏专属金融语料支持(泛语料库限制)。
- 新闻注意力:
- 突发事件新闻(例:东方航空事故)权重较高,反映时效性强,影响显著。
- 个股描述类新闻权重较高,行业点评类相对较低,符合投资者关注逻辑。
- 时间注意力:
- 越近日期的新闻权重越高,符合顺序依赖原则。
- 但整体权重差异较小(约10%左右浮动),或提示时间权重分配可进一步改善网络设计。[page::21-23]
2.4 总结与展望(第24-25页)
- HAN 网络有效捕捉新闻舆情多层次影响因素,实现沪深300股票池显著多头超额收益。
- 各注意力模块中,新闻和时间注意力最为关键,词语注意力虽贡献有限但不可忽视。
- 注意力分析支持模型设计,体现预期行为,但仍存在改进空间,尤其是时间注意力权重分布。
- 发展方向:
- 引入自步学习(Self-paced Learning)以提升训练效率和模型表现。
- 结合BERT等预训练语言模型提升词向量质量,增强金融领域词义理解。
- 探索多头alpha利用策略,转化因子能力为实盘组合优势。
- 风险提示强调模型依赖历史数据,解释能力有限,投资应用需审慎。[page::24-25]
---
3. 图表深度解读
3.1 回测绩效图与TopK策略(图表17-18)
- 图表17(实验组策略净值):
- 蓝色曲线表示Top30-Dropout策略净值,整体趋势显著优于沪深300等权(灰色)。
- 费前费后差异小,说明手续费成本对策略影响有限。
- 最大回撤负值图显示,回测期间回撤顶峰大约-24%,属合理控制范围。
- 图表18(相对净值及回撤):
- 策略相对基准净值持续上升,表明超额收益稳定。
- 最大回撤对比显示策略更为稳健,提升投资安全度。
这两图结合反映了模型预测能力强,且实际策略交易成本影响低,具备实操潜力。[page::15]
3.2 对照组绩效图(图表19-26)
- 删除词语注意力模块(对照组1)虽有回撤变化,但整体表现仍明显优于基准,年化超额13.95%。
- 删除新闻或时间注意力模块(对照组2、3)策略净值曲线趋于基准,收益低且回撤大,基本无超额收益。
- 全缺失(对照组4)表现与基准相仿,超额收益不明显。
此系列图表验证了新闻和时间注意力对选股绩效的关键作用,词语注意力影响次之。[page::15-16]
3.3 换手率与训练曲线(图表28-31)
- 换手率:
- 实验组日均换手率约6.5%,对照组稍低,说明模型动态适应市场,适度频繁交易。
- 训练准确率和损失函数(图表30-31):
- 训练及验证准确率逐步提升,最高约38%-39%,验证集波动><训练集,显示模型合理拟合。
- 损失函数下降并趋于稳定,表明训练过程收敛正常。
训练过程图表显示模型状态稳定,换手率合理,有实践参考价值。[page::17]
3.4 不同K取值影响(图表32-34)
- K取20,30,40时,整体策略收益均优于基准,表现相近。
- K=30时,回撤最低,年化收益最高(28.73%)和夏普比率最高,呈现最优风险收益平衡。
显示策略对投资组合规模参数稳定,不易过于敏感。[page::18]
3.5 IC序列及累计IC(图表35-37)
- 实验组IC序列波动显示正相关频繁,IC均值偏正,但绝对值不大(+0.0154)。
- 对照组IC明显弱或接近零,证实实验组因子优良。
- 累计IC显示,去除词语注意力影响较小,删除新闻/时间注意力导致因子失效。
体现核心模块对因子预测能力决定性作用。[page::19]
3.6 分层回测净值图(图表38-43)
- 实验组最高分层(多头端)表现最优,累计收益明显高出其他层,证实因子有效用于筛选优质股票。
- 低分层净值下降,显示因子能则“优胜劣汰”,具有区分力。
- 对照组分层结构和弊端明显,差异弱。
- 表格43列出分层收益数字佐证,实验组多头端收益29.08%,远超对照组。
以上支持模型多头端收益贡献明显,有助构建盈利策略。[page::20-21]
3.7 注意力系数热度图(图表44-50)
- 词语注意力图示三组样本,红色高权重词多为关键情感、转折词,专有名词权重较低。
- 新闻注意力展示不同来源新闻权重分布,突发事件新闻及个股相关新闻权重最高,行业/政策类次之。
- 时间注意力条形图中显示时间序列新闻权重大致递增,越近日期权重越高,但差异有限(约9.9%-10.05%)。
这三类数据直观反映模型的内部“判别”逻辑,从人类认知角度看信服度较高,为技术层面提供可解释性依据。[page::21-23]
---
4. 估值分析
报告并未包含具体的估值模型、现金流折现(DCF)或市盈率估值计算。其核心重点是算法模型构建与实证测试,强调选股因子有效性和交易策略绩效。估值部分无所涉及,属于研究方法与实证验证类报告。[page::全篇]
---
5. 风险因素评估
- 机器学习模型基于历史数据,存在失效的可能,尤其面对市场结构变迁。
- 模型解释性较弱,尤其黑箱特征影响理解和风险管理。
- 量化因子表现依赖宏观环境和市场风格,可能出现时效性衰减。
- 报告多次提示需谨慎使用,风险意识贯穿始终。[page::0,24,25]
---
6. 批判性视角与细微差别
- 模型训练与覆盖:
- 采用固定每日新闻数量上限(5条)和新闻长度定长(200词)可能丢失部分信息,未提出对新闻来源质量差异的处理。
- 词向量基于通用语料,可能导致对金融专用词权重分配不足,尤其针对如“景气”、“回暖”等重要词。
- 训练每轮迭代200步限制样本覆盖不全,计算资源限制显著,可能影响模型稳定性和泛化。
- 注意力模块设计:
- 时间注意力权重差异小,提示时间权重设计还可优化,比如引入递减权重函数或门控机制。
- 模型输出分类准确率约38%,提升空间大,或可结合其他特征提升。
- 实证局限:
- 仅覆盖沪深300成分股,其他市场或小盘股适用性未知。
- 量化因子未进行网站市值中性化,统计可能存在行业或规模偏差。
整体严谨,然而未来可通过更丰富、更深层次的特征、改进训练方法、扩大测试范围进行进一步提升。[page::12,21,23,25]
---
7. 结论性综合
本文严谨介绍了基于人工智能中的混合注意力机制网络HAN对新闻舆情进行深度文本挖掘的建模和实证过程。通过词语、新闻及时间三级注意力模块,HAN模仿人类对新闻的差异关注,实现股票未来涨跌的概率预测。
实证结果显示:
- 以沪深300股票为样本,TopK-Dropout动态选股策略实现了显著的选股收益,年化超额收益约16%,稳健性和潜在实际应用价值高。
- 注意力模块验证实验揭示新闻和时间注意力在模型性能中最为关键,词语注意力虽然贡献较小,但模型对情感词语赋予合理权重,增强文本理解。
- IC和分层回测均支持多头端因子有效性,模型能精准捕捉短期热点股票。
- 注意力机制可解释分析表明模型学习逻辑符合人类认知习惯,但时间注意力幅度偏小,网络词向量泛化能力亦有限,存在改进空间。
整体而言,HAN网络在文本挖掘与选股策略中展现出极强的学术价值与应用潜力,结合后续更先进的语言模型(如BERT)与自步学习技术,有望进一步提升模型表现与金融市场选股能力。
图表汇总显示:
- 图表1&2揭示HAN网络结构,精确反映多层注意力设计;
- 图表17-18实证净值曲线展现策略优势和稳健超额收益;
- 图表19-26对照组对比凸显注意力模块的核心地位;
- 图表35-37、38-43的IC和分层回测体现了因子定量有效性;
- 图表44-50注意力热力图支持模型的解释性和设计合理性。
在量化研究与机器学习选股深度融合的趋势下,本报告具备标杆意义和示范价值,同时对未来文本挖掘技术进步和实际投资策略优化具有启发作用。[page::0-28]
---
总体评价
本文为华泰证券发布的深度研究报告,条理清晰、分析细致,理论与实证相结合,图表丰富且解读充分。结构完整,充分利用注意力机制对复杂非结构化新闻数据进行多层次解析,科学地设计与检验模型,结果具有较强的实用性和可解释性,体现出现阶段人工智能技术在金融领域的创新应用。
缺点在于训练资源限制导致模型容量受限,用泛用词向量可能削弱金融语境识别能力,时间维度注意力分布不足对模型表现构成掣肘。未来进一步优化算法和增强金融语料训练是必由之路。
总体而言,报告为理解和应用基于多层注意力机制的舆情文本选股模型提供了专业、系统且深入的指导,对量化研究人员及策略开发者具备高度借鉴价值。
---
关键引用页码
[page::0,1,3–28]