`

基于 BERT 的分析师研报情感因子华泰人工智能系列之四十一

创建于 更新于

摘要

本报告基于预训练中文BERT模型,结合Wind标注金融舆情文本进行微调,构建了分析师研报文本情感因子senti及其调整因子senti_adj。通过对2010至2020年A股研报摘要情感预测,采用线性衰减加权构造情感选股因子,实证测试表明senti_adj因子能显著体现研报增量信息。基于此因子构建的TOP80选股组合实现年化收益14.9%,2020年绝对收益达69.69%,展示了较强的选股能力和投资价值[page::0][page::3][page::7][page::9][page::15][page::18][page::19]

速读内容

  • 基于BERT的情感因子构建流程[page::3]:


- 下载预训练中文BERT模型,使用Wind标注金融舆情文本微调。
- 用微调模型对分析师研报摘要文本预测情感,构建选股因子。
  • BERT模型性能及预测结果[page::4][page::6][page::7]:

- 采用RoBERTa-tiny-clue模型提升训练效率,测试集准确率0.9833,AUC 0.9762。
- BERT模型对研报中正面和负面文本可解释性分析表明模型理解合理。




  • 研报情感因子构建及调整[page::7][page::8]:

- 情感得分基于BERT对文本正向概率-0.5,90天滚动窗口加权求和构造senti因子。
- 负面样本权重放大3倍形成调整因子sentiadj,更突出负面情绪信息。
- 还构建report
score(研报评分)和reportnum(研报数量)作为对比因子。
  • 研报情感因子覆盖度和行业差异[page::9][page::10][page::11]:




- 沪深300覆盖度最高,行业覆盖均衡,食品饮料、电子、通信行业情感因子数值较高。
- senti
adj因子与其他因子相关性较低,体现了结构化因子外的增量信息。
  • 因子测试方法与实证结果[page::11][page::12][page::13][page::14][page::15][page::16]:

- 多种因子效力测试:回归法、IC值法、分层回测测试均表明sentiadj因子稳定有效。
- 分层测试沪深300、中证500、全A股表现一致,Top组显著超越Bottom组。





- 残差因子回测中senti
adjres普遍优于sentires,强化了调整因子的增量价值。
- 行业内选股显示senti和senti_adj因子均具有较好的选股能力。
  • 基于senti因子的TOP80组合表现[page::18]:

- 样本为中证800成分股,2011至2020年回测,月度调仓。

- TOP80组合年化收益14.9%,2019年和2020年绝对收益分别达到51.61%和69.69%。
  • 风险提示与未来展望[page::0][page::19]:

- 历史测试结果不代表未来表现,金融新闻与研报语义假设尚待验证。
- 未来可探讨领域适应与行业定制化NLP模型提升情感因子效果。

深度阅读

金工研究报告《基于 BERT 的分析师研报情感因子》详尽分析报告



---

1. 元数据与概览


  • 报告标题: 基于 BERT 的分析师研报情感因子(华泰人工智能系列第四十一篇)

- 作者及联系方式: 林晓明、李子钰、何康、王晨宇,均为华泰证券研究员,附带具体联系方式。
  • 发布日期: 2021年1月18日

- 发布机构: 华泰证券股份有限公司研究所
  • 主题: 以金融领域的自然语言处理(NLP)技术——基于当前领先模型BERT,构建分析师研报的情感因子,挖掘研报中隐含的选股Alpha信息,并对该因子进行系统测试和投资组合回测。

- 核心论点:
- 介绍了基于BERT的分析师研报情感因子的构建过程和方法;
- 构建了两个主要情感因子:senti和其调整版sentiadj,证明sentiadj在增量信息提取上比传统因子有更好表现;
- 基于情感因子构建的TOP80选股组合,表现显著优于市场基准,2019年和2020年获得超50%的绝对收益;
- 报告提醒情感因子的表现基于历史回测,未来可能面临失效风险,且模型假设金融新闻与研报语义结构相近存不确定性。[page::0]

---

2. 逐节深度解读



2.1 基于 BERT 的文本因子构建流程(第3页)


  • 关键论点:

- 研报利用无监督微调BERT模型,先用有标注的金融新闻文本对BERT模型进行微调;
- 再用该模型对无标注的分析师研报摘要文本进行情感预测;
- 将预测出的情感分数结合传统线性加权、滚动窗口等方法构建研报情感因子作为选股因子。
  • 推理依据: 利用金融新闻已有情感标签微调模型,期望模型能迁移到相似语料(研报摘要)上;

- 流程覆盖预训练、微调、预测与因子构建4步骤,形成完整闭环。
  • 图表1可视化了流程:从下载预训练中文BERT开始,经过微调,再到无标注文本预测,最后构建选股因子。[page::3]


2.2 金融文本情感分类模型训练(第4-5页)


  • 论点:

- 选用RoBERTa-tiny-clue模型简化网络结构,较BERT-base速度更快且保留效果;
- 用Wind金融新闻数据训练(2017-01至2020-09),样本86503条训练集,43252验证,43251测试。
- 训练时将新闻标题作为文本,剔除行情类、价格类词汇,数据均衡正负样本,模型准确率0.9833,AUC 0.9762。
  • 推理依据: 标题保留有效信息,剔除行情影响关键词,平衡数据减少标签偏差;

- 模型参数详见图表4,保证训练过程科学严谨。
  • 模型高准确率和AUC显示对金融文本情感预测有效。

- 图表3展示了部分新闻新闻样本,图表4展示了训练参数配置。[page::4][page::5]

2.3 使用微调BERT预测分析师研报情感并构建因子(第6-8页)


  • 论点: 重点研究分析师研报摘要的情感,比正文更凝练,聚焦每句文本情感预测。

- 数据预处理流程: 筛选A股研报摘要,删除转义字符和风险提示后的无关内容,按句号分割成句子,剔除无实际意义的句子。
  • BERT模型通过Salience Maps工具解释预测结果,显示模型关注“上升”、“向好”等关键词判断正面,“透支”、“不容乐观”等负面特征合理,模型预测与人类判断接近。

- 构建情感因子步骤:
1. 将模型输出的正面概率减0.5,令中性接近0;
2. 取入库日(交易日)往前90天的研报;
3. 计算每日单股情感均分,若无研报则为空;
4. 线性衰减加权求和,越近日期权重越大,产出每日情感因子senti。
  • 调整sentiadj因子: 由于模型正面样本约为负面样本3倍,赋予负面三倍权重以突出负面力量。

- 同时构建了研报评分因子report
score和研报数量reportnum作比较,以验证增量信息。[page::6][page::7][page::8]

2.4 因子测试框架及覆盖度(第9-10页)


  • 测试方法:

- 覆盖度检验因子在不同股票池(沪深300、中证500、全A股)和行业中的表现。
- 图表13显示沪深300覆盖度最高,约90%以上覆盖,提示因子较为可靠。
- 图表14表明多个行业覆盖度稳定,说明接入文本充足。
  • 行业差异: 2020年底,食品饮料、电子、通信行业senti和sentiadj因子值最高,市场情绪偏乐观。[page::9][page::10]


2.5 相关性分析与测试方法(第11-13页)


  • 情感因子与传统因子高度相关,尤其senti与reportscore、reportnum;而sentiadj相关性较低,突出增量价值。

- 常用单因子测试方法详述,包括:
- 回归法: 对因子暴露度与未来收益做多因子回归(行业、市值中性化),估计因子收益及稳定性;
- IC值分析法: 计算因子暴露度与未来收益相关性,IC均值衡量因子预测性,IC
IR衡量有效性;
- 分层回测法: 以因子分层构建多空组合验证收益表现,直接反映因子选股能力。
  • 数据处理细节(去极值、中性化、加权)保证模型稳健。

- 图表12深刻展示测试框架。[page::11][page::12][page::13]

2.6 研报情感因子测试结果分析(第13-16页)


  • 回归法与IC分析:

- senti因子在各股票池表现最好,残差因子sentires效果差,显示信息被传统因子解释;
- senti
adj及残差因子表现优于sentires,更能体现情感因子增量信息。
  • 分层测试:

- 多个股票池均显示Top1层组合净值持续优于底层,且多头年化超额收益明显;
- 整体与前述回归、IC分析结论一致,senti
adj分层收益稳定更优。
  • 回测图表(19-28页)清晰展示不同因子分层及残差因子组合表现,彰显sentiadjRES的优越性。[page::13][page::14][page::15][page::16]


2.7 行业内选股表现(第16-17页)


  • senti和sentiadj在绝大多数行业内均显示选股能力,回测带来正面超额收益;

- 综合行业及综合金融因子因覆盖度低未纳入测试。
[page::16][page::17]

2.8 基于研报情感因子的TOP80选股组合回测(第18页)


  • 样本空间:中证800成分股

- 回测区间:2011-01-31至2020-12-31
  • 调仓频率:月频,选取senti排名最高前80股票,按流通市值加权。

- 交易成本设定为双边千分之四。
  • 绩效表现极佳:年化收益率14.90%,2019年和2020年分别实现绝对收益51.61%和69.69%,显著跑赢市场。

- 图表31-33展现净值曲线、绩效指标及分年收益,均体现强势趋势。
[page::18]

---

3. 图表深度解读


  • 图表1(第3页): 完整展示了文本因子的构建流程,从BERT预训练、金融舆情微调、无标注研报摘要情感预测到选股因子构建,逻辑清晰,体现AI模型在金融数据中的实际应用。

- 图表3(第4页): 通过Wind金融新闻样本体现训练文本的真实度和专业度,保证情感标注的准确性。
  • 图表4(第5页): 详细列明模型训练参数,如batch size、学习率等,支持高准确率。

- 图表5-9(第6-7页): 通过Salience Maps对正负面文本词语重要性的可视化,直观阐释BERT情感判别依据,提升信赖感。
  • 图表10(第8页): 清楚明了地展示了情感因子线性衰减加权计算,强化了因子构建的时序及权重逻辑。

- 图表13-14(第9-10页): 从覆盖率角度展现因子广泛应用于市面主流股票及主要行业,便利读者评估因子的适用范围。
  • 图表15-16(第10-11页): 不同行业情感因子数值差异,体现了情绪的行业分布特征,有助投资者关注行业热点。

- 图表17(第11页): 关联性矩阵强调senti
adj因子相较其他因子信息差异,显示其独立价值。
  • 图表18(第14页): 回归和IC值分析结果的一览表,量化评估了各因子的预测有效性。

- 图表19-28(第14-16页): 系统展示因子分层回测和残差因子表现,能够一目了然地见证情感因子的市场表现和其超额收益能力。
  • 图表29-30(第16-17页): 展示行业内部选股回测效果,验证情感因子具备行业内部精选潜力。

- 图表31-33(第18页): TOP80组合净值增长及年度收益展示,凸显情感因子在实操层面的可行性及优越表现。
  • 附录图表34-35(第20页): 传统因子测试数据对比,辅助读者理解情感因子的竞争优势与互补性。


综合来看,所有图表均紧密配合文字内容,层层递进,深入阐明研究逻辑与因子实操表现。[page::3-20]

---

4. 估值分析



报告核心关注基于文本情感预测的“情感因子”的构建与验证,未涉及公司传统财务估值模型。文中并不包含DCF、市盈率等公司估值方法论。相反,核心估值“收益”是基于因子投资组合实证的超额收益和绝对收益回测,属于因子投资验证模型。其“估值”解释体现在:
  • 历史回测区间(2010年至2020年);

- 多指数股票池(沪深300、中证500、全A、及中证800);
  • 组合年化收益率及夏普比率指标;

- 单因子、残差因子超额收益显著。

这种以多重统计检验(回归、IC、分层测试)结合实证回测的方式,属于量化因子研究的“估值”范式,充分证明了情感因子的有效性与市场价值。[page::11-18]

---

5. 风险因素评估


  • 情感因子表现依赖历史数据,存在失效风险。模型虽然在2019-2020表现优秀,但未来市场变化可能使得文本情感与股价表现脱钩。[page::0][page::19]

- 模型假设金融新闻与分析师研报文本语义相似性,未充分验证该假设适用性。未来若迁移学习失败,情感预测精度将下降。[page::0][page::19]
  • 使用模型可解释性工具LIT存在过度简化风险。其解释结果可能不能完全反映模型复杂内部机制,存在认知偏差。[page::0][page::19]

- 交易成本和流动性风险未过多展开,实际投资中可能削弱超额收益。仅设双边千分之四,可能低估了实际市场摩擦。[page::18]
  • 行业覆盖度限制,部分行业因子有效性较弱。综合行业与金融行业覆盖较低无法测试,这限制了该因子的通用性。[page::16]


报告未详述缓解策略,对风险保持谨慎提示,但未来研究指明可改进迁移学习、单行业模型细分等方向,有望缓解上述风险。[page::19]

---

6. 批判性视角与细微差别


  • 样本偏差: 采样仅以Wind金融舆情为出口和微调,对异质文本结构或非结构化信息处理能力有限,可能影响泛化。

- 情感过度简化: 负面样本加权3倍未必是最优调整方式,可能过度强调负面情绪,忽略复杂市场情绪多样。
  • 因子信息重合度高: senti与传统reportscore、reportnum高度相关,说明部分情报重复,需谨慎评估其纯增量价值。

- 缺少对实盘适应性讨论: 虽有回测,但未详细探讨因子交易滑点、执行难度、持仓周期对收益的潜在影响。
  • 内部假设缺乏证据支持: 对研报摘要情感与未来收益关系的因果链未有明确理论阐释,有待深入学理探讨。

- 模型可解释性工具限制: 虽用LIT说明合理性,但机器学习解释性仍存争议,不能完全保证因子信度。
  • 部分图表(尤其20页后)未完全解析,限制全貌掌控。


总体上,报告科学严谨,但需持续优化模型假设验证和市场适用性,避免盲目乐观。

---

7. 结论性综合



本文系统阐述了基于NLP领域顶尖模型BERT,构建中国A股分析师研报情感因子的创新流程。通过使用Wind标注金融舆情数据对BERT微调,再用模型对无标签研报摘要每句情感打分,结合90天滚动线性衰减加权设计情感因子senti与sentiadj。

两因子均表现出高度统计显著性和稳定的收益预测能力,其中通过负面权重调整后的senti
adj在剔除传统研报评分及数量因子信息后仍保有较强增量信号,表明其有效地提炼了研报信息的情绪特征增量。

丰富的统计测试(回归法、IC值分析、分层回测)分别在沪深300、中证500及全A等多个股票池证明了其广泛适用性和稳健性。基于senti构建的TOP80月度调仓选股组合连续十年回测产出年化14.9%收益,显著跑赢市场,尤其2019至2020两年分别实现绝对收益超50%,展现极强选股潜力。

行业层面,情感因子在食品饮料、电子、通信等行业表现偏乐观,能反映市场热点情绪,具备行业内部选股能力。可解释性工具Salience Maps清晰揭示BERT判别依据的合理性,大幅提升因子的解释力度和投资者信心。

尽管如此,报告也审慎指出模型假设(金融新闻与研报语义结构相近)及模型可解释性存在潜在局限,历史回测的成功并不保证未来表现不变,投资者需充分意识可能风险。

未来方向包括深入验证语义迁移假说,开发行业专项情感模型,以及提高实盘执行的考虑,进一步提升因子挖掘深度和广度。

总之,报告以扎实的机器学习方法论和严谨的金融量化测试证明,研报文本中的情感信息是一条可被提取并用于超额收益的有效Alpha因子,为量化投资领域引入了人工智能技术的新突破。

---

主要引用页码: [page::0,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]

---

附:关键图示样例(Markdown格式)



图表1:基于 BERT 的文本因子构建流程


图表5:BERT模型预测结果示例


图表20:senti因子分层测试净值曲线(沪深300)


图表31:研报情感因子TOP80组合回测净值


---

本次分析详尽解构了报告的理论、方法、实证与风险,涵盖了文本挖掘、机器学习训练、因子构建与回测等金融量化研究各环节,做到全面且细致,助力投资者深刻理解基于人工智能情感分析的选股新路径。

报告