`

基于 BERT 的分析师研报情感因子华泰人工智能系列之四十一

创建于 更新于

摘要

本报告详细介绍了基于中文BERT模型微调构建的分析师研报情感因子,包括情感预测流程、因子构建方法和多种因子的比较分析。测试结果显示调整后因子senti_adj具有显著的增量信息,且在沪深300、中证500和全A股均实现了正向年化超额收益。基于该因子构建的TOP80选股组合回测表现优秀,2019和2020年分别实现51.61%和69.69%的绝对收益,展示出情感因子在量化选股的有效性和应用潜力[page::0][page::3][page::7][page::9][page::13][page::18][page::19]。

速读内容


基于 BERT 的文本因子构建流程 [page::3]


  • 使用预训练中文BERT模型,结合Wind有情感标注金融舆情数据进行微调,再在无标注的分析师研报摘要中进行情感预测,最终通过传统因子构建方法形成选股因子。


BERT模型训练与微调数据 [page::4][page::5]


| 模型 | Transformer层数 | 隐藏层神经元数 | 参数量 | 模型大小 |
|----------------|-----------------|----------------|---------|----------|
| RoBERTa-tiny-clue | 4 | 312 | 750万 | 28.3MB |
| BERT-base | 12 | 768 | 1.1亿 | 392MB |
  • 微调金融新闻数据总样本量约13万,其中正负样本均衡处理。

- 训练参数包括学习率1e-5,训练5轮,最大文本长度500。
  • 测试准确率达0.9833,AUC达0.9762,高精度完成情感分类。


研报情感因子构建方法 [page::7][page::8]

  • 对每句研报摘要文本预测正面概率减0.5得到情感得分。

- 在最近90个自然日内对股票多篇研报得分进行线性衰减加权。
  • 构建senti因子和调整因子sentiadj,后者对负面情感赋予3倍权重,增强负面信号影响。

- 同时构建了研报评分因子(report
score)和研报数量因子(reportnum)用作对比。

研报情感因子覆盖与行业差异 [page::9][page::10][page::11]




  • 沪深300股票池覆盖率最高。

- 覆盖度在各行业有所差异,食品饮料、银行、非银金融覆盖较好。
  • 2020年末,食品饮料、电子、通信等行业senti和sentiadj均值较高,反映其研报整体正面情绪较为突出。


相关性与多方法测试结果 [page::11][page::13][page::14][page::15]




  • senti与传统因子reportscore和reportnum高度相关,sentiadj与后者相关性低,具备信息增量。

- 回归法、IC值和分层回测均验证senti
adj的稳健性和有效性,显示其在沪深300、中证500、全A市场均实现显著正收益。
  • 分层组合年化超额收益最高约为5.40%(沪深300)。

- 分层测试中,情感最高层收益显著优于最低层,且组合稳定。

行业内选股效果及残差因子表现 [page::16][page::17]


| 行业 | RankIC均值 | 信息比率 | 多空组合年化超额收益率 |
|------------|------------|----------|-------------------------|
| 石油石化 | 7.35% | 0.27 | 3.07% |
| 食品饮料 | 5.68% | 0.27 | -1.81% |
| 传媒 | 4.88% | 0.22 | 1.48% |
| 银行 | 1.90% | 0.08 | -7.26% |
| 机械 | 6.00% | 0.38 | 1.34% |
  • 行业内也体现情感因子的选股效力,收益与因子正相关。

- 残差因子中,sentiadjres表现明显优于sentires,进一步说明调整后的因子带来更多独立信息。

绝对收益TOP80组合回测表现 [page::18]


  • 采用中证800股票池,月频调仓,选择senti因子最高80只股票。

- 2011年1月-2020年12月回测,年化收益率14.90%,波动率25.5%,夏普比率0.58,最大回撤46.5%。
  • 2019年和2020年绝对收益分别达到51.61%和69.69%,表现优异。


主要结论与未来展望 [page::19]

  • BERT模型可以合理预测分析师研报情感,构建的情感因子在多种测试框架下表现优异,且调整因子sentiadj能体现更多增量信息。

- 研报情感因子具备实用的投资价值,TOP80组合回测业绩突出。
  • 未来可考虑针对行业特征训练多模型,或进行领域自适应改进,以提升模型泛化能力。

- 风险提示包括历史表现不代表未来表现,语义结构假设的局限,及模型可解释性工具的简化风险。

深度阅读

金工研究报告详尽分析报告 —— 基于BERT的分析师研报情感因子构建与测试(华泰证券,2021年01月)



---

一、元数据与报告概览


  • 标题:基于 BERT 的分析师研报情感因子华泰人工智能系列之四十一

- 作者及联系方式
- 林晓明,研究员,linxiaoming@htsc.com
- 李子钰,研究员,liziyu@htsc.com
- 何康,研究员,hekang@htsc.com
- 王晨宇,联系人,wangchenyu@htsc.com
  • 机构:华泰证券股份有限公司

- 发布日期:2021年01月18日
  • 主题:利用自然语言处理(NLP)技术中的BERT模型构建情感因子,从分析师研报文本提取情感信息,用于股票选股因子构建和回测。


报告核心主张



本文创新性地基于BERT模型,构建了两种研报情感因子——senti与其调整版本sentiadj,系统测试表明两种因子在沪深300、中证500和全市场均表现出一定的预测能力,尤其sentiadj因子能体现出更多增量信息。此外,应用senti因子构建的TOP80选股组合显示了优异的绝对收益表现,2019年和2020年分别实现超过50%和69%的收益率,充分验证了情感因子的较强实用价值。[page::0]

---

二、逐节深度解读



1. 基于BERT的文本因子构建流程(第3页)


  • 关键观点:采用预训练中文BERT模型,利用Wind已标注情感的金融舆情文本进行微调,进而在未标注的分析师研报摘要上进行情感预测,最终构建情感选股因子。

- 逻辑
- 先取得强泛化能力的预训练模型,再用带标签的领域相关数据做微调。
- 处理的是分析师研报这种异构未标注的文本数据,以研报摘要为重点文本。
- 用传统量化因子构建方法将情感预测结果形成持续的情感因子。
  • 图表1解读:清晰展示了从预训练模型下载、微调、预测到因子构建的完整流程。[page::3]


2. 金融文本情感分类模型训练(第4-5页)


  • 模型选择:选择了相较于标准BERT-base更轻量的RoBERTa-tiny-clue模型,拥有4层Transformer,参数仅750万,极大加速训练,但仍保留了良好的表现。

- 数据准备
- 采集了2017年1月至2020年9月的Wind金融新闻,筛选与A股相关且剔除行情类和过于情绪化标题的新闻。
- 采用新闻标题作为输入文本,情感已标注(正/负标签平衡)。
  • 训练效果

- 参数设置:学习率1e-5,训练5轮,最大文本长度500。
- 测试集准确率0.9833,AUC 0.9762,显示情感分类非常精准。
  • 图表2、3、4解析:详细说明模型参数及训练样本构造,加大了研究的透明度。[page::4-5]


3. 微调模型预测研报情感与因子构建(第6-8页)


  • 文本选择:聚焦朝阳永续数据库中2010-2020年间的分析师研报摘要,认为其浓缩且更适合情感分析。

- 文本预处理
- 去转义字符,删除风险提示内容,按句号句分割摘要。
- 移除无意义文本,如“数据来源”等。
  • 情感预测结果案例

- 以“上汽集团投资主题”研报为例,BERT模型准确区分正负面词汇,且能打出概率评分。
- 通过LIT解释工具(Salience Maps),显示模型关注正面词“上升”“向好”、“稳健”,负面词“透支”“不容乐观”“竞争加剧”“下滑”等。
- 说明模型预测情感的可解释性和合理性,贴近人工判断。
  • 因子senti构建方法

- 取模型输出正面概率减去0.5,使中性靠近0。
- 对每个交易日,采用过去90天研报摘要的加权平均情感分数(线性衰减权重)计算个股情感得分。
  • sentiadj调整因子

- 由于正面样本数量约是负面3倍,负面情感权重大幅提升(负面得分乘3),增强负面信号权重。
  • 对比因子

- report
score(研报评分)和reportnum(研报数量)同样用90天窗口及线性权重计算。
  • 图表6-10详细显示BERT情感判断、可解释性和加权计算示意,体现技术细节与操作透明度。[page::6-8]


4. 研报情感因子测试(第9-17页)


  • 测试框架(见图表12):

- 从因子覆盖度、行业分布、相关性、单因子效能(回归法、IC值分析、分层回测)、行业内选股能力多维度全面评估因子表现。
  • 覆盖度分析

- 覆盖度最高的为沪深300成分股(接近90%),中证500次之,全市场稍低(约40%-70%不等)。
- 行业内,金融、银行、食品饮料等行业覆盖度较高,综合行业、综合金融覆盖度较低。
  • 行业间差异

- 2020年底,食品饮料、电子及通信行业拥有较高的正面情感因子值(senti及senti
adj),表明行业研报情绪偏向积极。
  • 相关性分析

- senti与reportscore和reportnum相关系数较高(0.73+),说明其与传统研报评分、数量因子有较强重合。
- sentiadj相关度显著较低,表明其重点反映不同于传统因子的额外信息。
  • 单因子效能测试方法

- 回归法:考察因子暴露度与下期收益的因果关系,权重采用流通市值平方根,控制行业及市值中性化。
- IC值分析:衡量因子值与后期收益的相关性及稳定性,采用RankIC作为评价标准。
- 分层回测法:构造多空组合,观察因子分层组合收益差异,直观量化因子选股能力。
  • 测试结果(图表18-28)

- senti因子在绝大多数股票池中均表现出较好回归统计显著性,但其残差因子(剔除report
score与reportnum信息后的部分)表现明显下降,说明其信息大部分可被传统评分与数量因子解释。
- senti
adj及其残差因子表现稳定且明显优于senti残差因子,体现了sentiadj可以捕获更多独立于传统因子的有效信息。
- 分层回测中,senti及senti
adj因子及残差因子的Top组相比Bottom组均获得显著超额收益和较好夏普比率,且sentiadj残差因子表现优于senti残差因子,验证了其选股价值。
  • 行业内选股测试

- 绝大多数行业中,senti和senti
adj因子均能带来正RankIC及部分行业多空组合正向超额收益,如石油石化、食品饮料、传媒、机械、银行等。
- 个别行业如通信、矿产等表现较弱,部分可能因因子覆盖度或行业特性限制。
- 覆盖度低的综合行业和综合金融行业未进行测试。
  • 图表丰富,覆盖度、相关性、统计显著性及回测表现均明确展现,佐证结论具备统计与实际托底。[page::9-17]


5. 基于研报情感因子的TOP80选股组合构建与回测(第18页)


  • 方法

- 样本空间为中证800成分股。
- 回测区间2011年1月31日至2020年12月31日。
- 每月末选出senti因子得分最高的前80只股票,采用流通市值加权,下月初按收盘价调仓,双边交易成本0.08%。
  • 回测结果

- 组合年化收益率近15%,远超基准中证800(约5%)。
- 夏普比率0.58,风险调整回报表现良好。
- 最大回撤46.5%,略优于基准。
- 逐年收益波动较大,2019、2020两年绝对收益分别为51.61%、69.69%,显示显著的赢家收益聚集效应。
  • 图表31-33展示净值曲线、绩效指标及逐年收益清晰传递组合优异绩效。[page::18]


6. 总结与未来展望(第19页)


  • 报告总结

1. 完整梳理了基于BERT的研报情感因子从模型选择、训练、预测到因子构建的流程,强调了NLP模型的可解释性。
2. 构建了senti与加权负面情感更重的sentiadj因子,与传统因子相关性与增量信息均得到验证。
3. 多种统计方法和回测方法系统验证两因子的实用价值,特别是senti
adj因子能够体现传统分析师因子之外的增量效果。
4. 基于senti因子所构建的TOP80组合展现出显著且持续的绝对收益能力。
  • 未来改进方向

- 金融新闻与分析师研报语义结构的假设尚未验证,未来可借助迁移学习中的领域自适应技术精细调优。
- 不同行业或子行业的研报语义差异较大,开发行业专属的NLP模型可能进一步提升因子表现。
  • 风险提示

- 研报情感因子依赖历史表现,未来可能失效。
- 假设金融新闻和分析师研报情感结构一致性未必完全成立。
- 模型可解释性工具LIT存在简化风险。
  • 报告践行了学术严谨与实证结合的创新探索,提出了前沿数据与AI结合的量化投资工具。[page::19]


---

三、图表深度解读(精选)


  • 图表1(第3页):显示了基于BERT的研报文本因子构建流程,从预训练、微调,到文本情感预测,最后生成选股因子,结构清晰,流程完整。
  • 图表2(第4页):RoBERTa-tiny-clue相对于标准BERT-base,在模型层数、参数量、模型大小方面更轻量,保证了训练速度,适合金融领域文本情感分类任务。
  • 图表5(第6页):示例研报摘要语句及对应情感预测概率,展示BERT模型能有效区分正负面句子,且概率值量化情感强度,支持后续因子构造。
  • 图表6~9(第7页):借助Salience Maps展示模型关注关键词,直观体现模型情感判别机制,验证模型的可解释性及合理性。
  • 图表10(第8页):示意因子线性衰减加权求和的计算方法,强调更近期研报情感在因子构建中权重更高,体现时序信息的重要性。
  • 图表13~14(第9-10页):研报情感因子覆盖率在股票池和行业层面差异明显,沪深300成分股覆盖率最高,金融与消费行业覆盖度表现较优。
  • 图表15~16(第10-11页):不同行业的senti和sentiadj因子值,反映行业间研报积极度差异,食品饮料、电子、通信等行业研报更为积极。
  • 图表17(第11页):因子相关系数矩阵展示senti与传统研报评分因子(reportscore、reportnum)的高相关性,sentiadj则较为独立,具备补充信息。
  • 图表18(第13页):回归法及Rank IC值分析,定量证明senti因子有效但信息重叠,sentiadj及其残差因子独立性和稳健性更强。
  • 图表19~25(第13-15页):分层回测各种股票池的多空组合收益,清晰展示因子收益递减规律,sentiadj的分层选股能力优于senti残差。
  • 图表26~28(第15-16页):残差因子TOP组合净值曲线,进一步确认sentiadjres组合获得更优的超额收益。
  • 图表29~30(第16-17页):行业内的多空组合绩效详情,揭示因子在不同行业的选股效果,辅以RankIC均值、收益率、夏普率等多维指标,帮助理解行业特异性。
  • 图表31~33(第18页):TOP80组合净值及年度收益,展示senti因子在实盘中的可用性及其带来的显著绝对收益能力,未来可为投资策略提供参考。
  • 图表34~35(第20页):传统研报评分及数量因子的回归与分层测试结果,作为本报告因子比较的基准,突出情感因子与传统因子的异同及改进空间。[page::3,4,6,7,8,9,10,11,13,15,16,18,20]


---

四、估值分析



本报告无直接的公司或行业估值分析,采用的主要是因子构建、统计检验及投资组合回测方法。模型基于机器学习的文本情感分类,最终通过传统量化测评模型回归与IC值分析验证因子有效性,且通过多层次组合分层测算考察实盘潜力,不涉及DCF、P/E或EV/EBITDA等财务估值技术。

---

五、风险因素评估


  1. 历史表现不代表未来:因子测试基于历史数据,未来市场结构变化可能导致因子失效。

2. 数据与语义假设:拟合假设金融新闻与分析师研报语义结构近似,若该假设不成立,模型迁移能力不足。
  1. 模型简化风险:模型可解释性工具(LIT)存在可能的过度简化,影响对情感预测准确性和因子构建的理解。

4. 覆盖行业与样本限制:部分行业覆盖率较低,影响因子稳健性和广泛适用性。
  1. 市场微观结构风险:未明确交易成本对策略的逐步影响,且量化策略带有市场流动性和交易滑点风险。


报告明确指出这些潜在风险,提示投资者需谨慎采用因子,并对模型和假设的局限性有充分认识。[page::0,19]

---

六、批判性视角与细微差别


  • 因子构造的前提假设或可商榷:报告基于金融新闻数据训练的模型迁移到分析师研报文本,但二者文本语义和风格或存有差异,可能导致情感判定偏差,未来改进可进一步针对研报文本单独训练。

- 正面文本频数远超负面情况加权处理合理,但权重倍数显3倍略显主观,如何设定更科学权重有待未来探讨。
  • senti因子较strongly与传统评分和数量因子高度相关,可能反映多余信息,虽通过残差因子减少相关性但在某些股票池展示有限增量,需警惕实际单独贡献有限。

- 模型可解释性部分只提供少量案例,整体是否普适尚待观察
  • 研报覆盖度行业差异大,部分领域因子表现不佳提醒应用时需行业分化考虑。

- 回测结果优异,但波动率和换手率均较高,实操需结合资金规模和风险管理考虑。
  • 风险提示充分,但未提及策略面临的宏观经济突变风险或监管政策变化影响。

- 估值部分缺失,若后续整合因子进多因子模型,估值及风险调整需完善。

---

七、结论性综合



本报告系统性展示了利用先端NLP模型BERT从分析师研报摘要文本中提取情感信息的新因子构建路径,创新地提出了senti与调整负面权重的sentiadj因子。大量实证测试覆盖因子覆盖度、行业差异性、统计显著性、积分相关性及多种组合回测方法,验证了情感因子的有效性和可靠性。尤其是sentiadj因子的残差部分显示出比传统研报评分和数量因子更多的独特信息,具备较强的增量投资价值。基于senti因子的TOP80策略组合在过去近十年整体实现接近15%的年化收益,且在近两年收益表现尤为突出,表明情感因子有助于捕捉市场热点和投资机会。

研究过程技术细节详实、数据处理严谨、模型解释合理,部分章节辅以丰富图表支持数据及结论,有效增强报告可信度。风险提示覆盖数据、模型和策略层面,体现了审慎功底。未来可着力于领域适应、行业细分模型训练及多因子集成优化。

综上,报告呈现出一条结合人工智能与量化金融实践的创新路径,情感因子对增强研报文本挖掘及投资信号捕获具有实际应用潜能,推荐关注此类因子在当前金融市场数据应用中的潜力和风险。[page::0,3,6,9,13,18,19]

---

附录


  • 报告尾页详细披露研究所声明、免责声明及法律合规相关信息,保障研究合规性和透明度。[page::21-23]


---

关键词解释与拓展


  • BERT(Bidirectional Encoder Representations from Transformers):一种基于Transformer结构的深度双向语言表征模型,擅长处理上下文关系复杂的语言建模任务,是目前自然语言处理中最先进的预训练模型之一。
  • 情感因子(Sentiment Factor):通过分析文本中的情绪倾向(正面、负面)而得出的量化指标,反映市场情绪对股票价格的潜在影响。
  • 微调(Fine-tuning):在已经预训练好通用模型基础上,使用领域相关标注数据对模型进行再训练,以提升其特定任务表现。
  • LIT(Language Interpretability Tool):谷歌开源的模型可解释性工具,用于分析和可视化NLP模型对文本的预测依据,增强模型内部机制透明度。
  • IC(Information Coefficient):指标因子预测股票未来收益能力的相关系数,越高表明因子预测有效性越强。
  • 分层回测:按照因子值对股票进行排序并分组,观察不同分组的收益率差异,评估因子预测收益的能力。
  • 残差因子(Residual Factor):剔除与其他因子的共同部分后剩余的因子成分,用于探究因子的独立贡献。


---

本分析致力于为投资者和策略研究者提供全面深入的理解基础,助力基于文本情感的量化投资策略优化与实用化发展。

报告