`

人工智能 63:再探文本 FADT 选股

创建于 更新于

摘要

本报告基于FinBERT预训练模型升级分析师研报文本挖掘框架,通过对研报文本进行FinBERT隐藏层编码,替代传统词频向量,结合XGBoost模型二次训练,实现文本因子收益显著提升。新因子forecast_adj_txt_bert多头年化收益较旧版上升近5个百分点,回测期2009年至2022年表现稳健。并针对文本截断与分段、FinBERT微调、编码层次、因子融合及单纯FinBERT微调等多维度进行了系统扩展测试,均显示模型升级效果稳健非偶然。不同业绩及评级调整场景下升级文本因子均见提升。报告展现了三种基于该因子的主动量化组合构建案例,其中不等权组合年化收益45.90%,相对中证500超额36.35%。此外因子与传统多因子及Barra风格因子相关性较低,具有alpha特异性,覆盖沪深300和中证500标的股票,具备较强实用价值和拓展潜力 [page::0][page::2][page::4][page::17][page::21][page::26][page::29][page::37]

速读内容

  • 研究背景与方法升级 [page::0][page::2][page::3][page::4]

- 传统文本因子采用词频向量表示研报文本,结合XGBoost训练,预测研报前后个股超额收益,存在上下文语义损失。
- 本文引入FinBERT(金融领域预训练BERT模型)替代词频向量,利用FinBERT隐藏层768维CLS层输出作为文本特征,再进行XGBoost模型二次训练,显著提升alpha。


  • FinBERT模型与微调技术 [page::7][page::10][page::11][page::12][page::13]

- BERT架构基于Transformer,自注意力机制实现双向语义理解,通过MLM与NSP任务预训练。
- FinBERT为针对金融领域预训练的BERT,训练语料包含大量金融新闻、研报和公告,任务包含字词级Mask和行业分类实体识别。
- 由于FinBERT参数超1亿,本文采用Adapter-BERT微调技术,只调节约3%的参数,显著提升微调效率且性能无损。




  • 模型训练流程及回测表现 [page::14][page::15][page::17][page::18]

- 使用带情感标注的万得新闻数据微调FinBERT,训练样本约14.8万条,训练准确率达95%以上。
- 研报文本经过预处理(标题+摘要合并、截长补短或分段),输入微调FinBERT得到CLS层向量,作为XGBoost输入训练与预测。
- 回测采用样本内6个月训练、样本外12个月测试的滚动方式,构建多头分层因子,FinBERT编码因子多头收益率提升明显。




  • 扩展测试及优化验证 [page::19][page::20][page::21][page::22][page::23][page::24][page::25]

- 长文本处理分截断与分段,均有效,且分段方式在收益稳定性和超额波动降低上略优。
- FinBERT微调显著提升因子表现,不微调版本表现不及微调版,效果接近词频向量版本。
- 对比CLS层与全连接层编码,两者均有效,CLS编码更优且分层效果更明显。
- CLS编码与词频向量组合无明显进一步提升,说明CLS编码已涵盖主要文本信息。
- 仅使用FinBERT直接微调模型效果较差,结合XGBoost训练优势明显。




  • 文本因子相关性与覆盖度 [page::25][page::26]

- forecastadjtxtbert因子与Barra风格因子相关性低,动量正相关约0.3,账面市值负相关约-0.3,说明alpha特异性强。
- 与传统财务因子整体相关系数均低于0.5,具备补充多因子模型的潜力。
- 因子覆盖度沪深300约70%-80%,中证500约40%-60%。


  • 不同场景下的因子升级效果 [page::27][page::28][page::29]

- 业绩发布场景构建SUE
txtbert文本因子,采用多类公告合并,动态滚动更新因子值。
- 评级调整场景文本因子forecast
scoreadjtxtbert升级后表现明显优化。


  • 应用案例分析 [page::30][page::31][page::32][page::33][page::34][page::35][page::36]

- 案例一:基于forecast
adjtxtbert多头第一层基础池,使用12个额外基本面与技术面因子行业市值中性化后等权合成,构建25只不等权组合,控费后年化收益45.90%,夏普1.58。
- 案例二:剔除总市值低于100亿元股票,剩余个股构建15/20/25只等权组合,最高年化收益32.04%,相对超额收益24.75%。
- 案例三:沪深300股票池内选取最优30只股票,依据多空头排列调权构建不等权精选组合,年化17.58%,相对沪深300超额12.44%。



  • 主动量化组合风险与潜在优势 [page::37]

- 组合最大回撤控制合理,最大个股持仓权重稳定不超20%,权重调整合理提升组合波动控制。
- 文本因子和增强因子相结合,提升策略稳定性和预期收益。


深度阅读

人工智能 63:再探文本 FADT 选股 —— 华泰研究深度分析报告解构



---

一、元数据与概览


  • 报告标题:《人工智能 63:再探文本 FADT 选股》

- 作者团队:研究员林晓明、李子钰、何康博士等,华泰证券研究所
  • 发布时间:2022年10月28日

- 机构:华泰证券股份有限公司
  • 研究主题:基于深度学习金融领域的预训练语言模型FinBERT,对分析师研报文本进行编码,提升基于文本的选股因子效果(FADT选股策略升级)。


核心论点与目标

本报告在华泰之前几期文本选股研究的基础上,重点突破文本特征的表达形式,从之前的“词频向量”升级到FinBERT隐藏层编码,通过对分析师研报文本更充分的语义理解,辅以机器学习二次训练,显著提升文本因子的alpha收益表现,形成风格独特且选股效果优异的主动量化投资模型。

---

二、逐节深度解读



2.1 分析师研报文本挖掘框架升级(第2-4页)


  • 过去方法回顾:以词频矩阵加XGBoost浅度学习模型定量刻画研报文本情绪,取得较为有效的文本PEAD及FADT选股因子成果。标签采用研报发布前后两日的超额收益,但词频模型在情绪区分上对非极端层级效力不足。
  • 逻辑瑕疵:词频表示忽略了上下文中词语组合的语义差异(“成本上调” vs “盈利预测上调”),导致对文本的语义损失。
  • 改进方案:引入预训练语言模型BERT,使用更丰富的上下文语义编码替代词频向量。具体升级路线是FinBERT微调后,对于每篇研报文本提取CLS层768维隐层特征作为文本向量输入XGBoost进行二次训练建因子。
  • FinBERT介绍

- 针对金融领域大规模语料进行预训练(包含金融新闻、公告、研报等)
- 增强金融领域专有语言理解能力,优于原生BERT
- 采用Adapter-BERT结构降低微调参数量,提高训练效率。

2.2 模型训练与数据处理(第12-16页)


  • FinBERT微调:使用带情绪标签的万得新闻舆情数据(14.8万条),采用Adapter-BERT技术进行参数高效微调,训练准确率达95%以上,保证FinBERT隐藏层能充分表达语义。
  • 研报文本编码

- 标准化文本预处理,去除无关字符,拼接标题摘要,截断或多段切分文本。
- 输入FinBERT,截取CLS层隐层向量(768维)表示文本语义特征。
- 结合盈利预测调整场景标签,以滚动时间窗口方式(训练6个月,测试12个月)用XGBoost进行有监督机器学习,构建forecastadjtxtbert因子。
  • 超参数与训练细节

- XGBoost用学习率[0.025-0.1]等参数网格搜索,使用5折交叉验证。
- 标签为T-1到T+1交易日股价超额收益,划分为上涨(前30%)、震荡(30%-70%)、下跌(后30%)三类。

2.3 实证分析与五组扩展测试(第17-29页)


  • 基础模型优异表现

- forecast
adjtxtbert因子10分层中,多头第一层年化收益从22.87%提升至27.50%,相对中证500超额收益提升4.44个百分点,证明FinBERT编码对文本挖掘的显著增益。
- 不同分层收益表现区别明显,多头效应突出。
  • 五组扩展测试总结


| 测试编号 | 内容 | 结论 |
|----------|----------------------------|-------------------|
| 1 | 文本截断(前N字) vs 分段 | 均有效,分段更稳健 |
| 2 | 是否微调FinBERT | 有效,且微调效果更佳 |
| 3 | CLS层编码 vs 全连接层编码 | 均有效,CLS编码效果略优 |
| 4 | CLS编码 + 词频向量结合 | CLS编码已涵盖大部分信息,结合略有提升 |
| 5 | 仅用FinBERT微调(无XGBoost) | 无效 |
  • 样本长文本处理

- 分段处理使样本量增加,提升模型的稳定性和泛化。
- 200和500词长度对截断和分段均验证有效。
  • 是否需FinBERT微调

- 不微调的FinBERT版本准确率约80%,微调后超95%,文本因子效果对应加强。
  • 编码方式比较

- 使用微调后的CLS层隐层向量编码优于直接使用微调全连接层,且均优于旧词频向量版本。
  • 融合词频向量

- 额外加入词频向量未显著提升,仅稍增强分层效果,说明CLS编码已基本覆盖信息。
  • 仅FinBERT微调尝试

- 直接用FinBERT微调研报文本及超额收益标签,未加入XGBoost,结果大幅逊色,表明文本编码+机器学习标签建模有效。

2.4 不同场景下文本因子升级(第27-29页)


  • 业绩发布场景

- SUEtxt因子通过FinBERT升级,覆盖业绩预告、快报及财报公告等,构建流程细化。
- 新因子表现明显优于旧词频向量版本,覆盖度稳定。
  • 评级调整场景

- 针对卖方评级调整情景的文本因子forecast
scoreadjtxt也进行FinBERT升级,表现提升明显。

2.5 应用案例(第30-36页)


  • 案例一:等权增强组合

- 以forecastadjtxtbert多头第一层为基础池,加入12个财务及技术因子加权行业市值中性化。
- 选取25只股票等权构建组合,采用月度调仓。
- 回测年化收益45.90%,超中证500年化36.35%,夏普1.58,表现极为优异。
  • 案例二:不等权增强组合

- 根据个股多空头排列技术信号动态调整权重(多头乘2,空头乘0.5,权重不超过20%)。
- 权重调整策略提升组合收益及夏普指标。
- 回测年化收益45.90%→更优,最大个股仓位保持合理。
  • 案例三:市值限定(100亿以上)增强组合

- 基于预测因子筛选市值>100亿股票构成组合,保持选股逻辑一致。
- 回测年化收益31.12%,超额收益23.94%,夏普1.11,体现大市值股票依然有较好超额表现。
  • 案例四:沪深300内精选

- 仅在沪深300成分股内按文本因子排序选30只股票,不调行业市值,仅用多空头排列权重调仓。
- 回测年化收益17.58%,相对沪深300超额12.44%,夏普0.66,表现稳健。

---

三、图表深度解读(重点图示解析)


  • 图表1、4、5 (第2-4页)

- 旧版词频矩阵与升级版FinBERT+XGBoost挖掘流程对比,直观展现模型思路的发展和框架关键节点。
  • 图表6-9、38-40、50-53(第4、5、19-22页)

- forecast
adjtxt与forecastadjtxtbert因子分层净值、超额净值对比图,突出FinBERT编码大幅提升多头超额收益,尤其是第一层看多股票组合,约提升4-5%。且微调FinBERT大幅优于未微调版本。
  • 图表10-12、84-87(第5、32-33页)

- 主动量化组合与沪深300内量化精选组合的净值表现,支持文本因子在实际选股中带来可观的超额收益和风险调整回报。
  • 图表17(第10页)

- FinBERT预训练流程图,展示金融领域预训练任务设计细节,是理解FinBERT金融语境优势的关键。
  • 图表18(第11页)

- Adapter模块结构图,有效降低微调参数量至约3%,保障微调效率。
  • 图表64-67(第25-26页)

- forecastadjtxtbert与Barra风格因子及传统因子的相关性分析,揭示文本因子独立性和特色alpha,关联动量最高(0.3),与其他因子低相关,强调其alpha特异性。
  • 图表42-49(第20-21页)

- 文本截断与分段对比,分段方法利用更多文本内容,提升因子效力。500词分段表现较优,近期更平稳。
  • 图表54-57、58-61(第23-24页)

- CLS层编码与全连接层编码对比及与词频结合的试验。CLS编码普遍表现最好,结合词频有部分分层提升。
  • 图表79-83(第30-31页)

- 基础因子组件及等权增强组合表现,配合文本因子实现极高夏普及收益提升。

---

四、估值分析



报告主题为文本挖掘与机器学习选股模型,并不涉及个股公司估值,因此无传统估值分析。整体关注因子alpha表现和机器学习模型收益与稳定性,而非估值指标。

---

五、风险因素评估



报告明确风险提示:
  • 机器学习模型存在历史经验总结性质,可能失效。

- 人工智能模型可解释程度低,投资者需谨慎。
  • 量化因子历史结果不能预测未来,谨防过拟合与数据偏差。

- 互联网开源模型复现性有限,应用需注意模型来源与稳定性。

这体现对AI与量化投资模型普遍风险的合理提醒,但报告未特别细化针对文本本身可能存在的领域特异风险(如政策变动、市场风格转变等)。

---

六、批判性视角与细微差别


  • 报告数据周期全面(2009年至2022年),但FinBERT为2020年末及后投入使用,新引入的训练样本量(如舆情标注14.8万条)相对有限,尽管Adapter-BERT缓解训练难度,模型泛化仍需长期验证。
  • 多处回测计算因子均基于盈利预测调整场景,模型依赖当期标签定义,对标签定义合理性及非事件文本表现缺乏详细讨论。
  • 纯FinBERT微调无XGBoost效果较差,显示单一端到端深度学习方案难以奏效;模型设计为先语义编码后机器学习复合,体现主观拆分但也可能造成功能分离上的效率损失。
  • 组合案例选股数量相对较少(20-30只),因子组合策略依赖多因子增强,因子之间的稳健性、行业配置和市场状态适应性没有详细披露。
  • 高alpha回测收益伴随波动率较高,最大回撤控制尚需加强,可能存在较大市场时点依赖与风控需求。
  • 关联性分析表明,文本因子未与传统因子强相关,理论上具备alpha_补充属性,但实际组合多因子混合,独立因子贡献率及边际改善体现有限。


---

七、结论性综合



报告最关键发现及论点:


  1. 文本特征升级是选股alpha提升的关键:FinBERT隐藏层768维编码明显优于传统基于词频的文本向量,因子收益在过去逾13年大幅提升,尤其多头第一层年化收益由22.87%提升至27.50%,相对基准超额收益提升接近5个百分点。
  2. FinBERT微调不可或缺,Adapter-BERT极大加速微调过程:通过万得数据进行金融语义微调使得模型准确率稳定提升至95%以上,避免了原始预训练模型编码语义表达贫乏的缺陷。
  3. 结合监督机器学习模型是提升关键:FinBERT编码本身无法完全替代二次训练,XGBoost模型在已有标签引导下有效将语义信息转化为选股信号,是提升alpha的核心环节。
  4. 多场景适用,业绩发布与评级调整等均获得提升:文本因子在业绩发布、评级调整及FADT场景下表现均优于传统方法,说明模型的普适性和稳定性较强。
  5. 长文本分段处理及编码方式优化进一步提升选股效力及稳定性
  6. 文本因子相关性较低,具备新型alpha补充价值
  7. 基于文本因子的量化组合回测收益显著,夏普表现优异,组合风险有限,且多权重调整策略对收益有积极贡献
  8. 市值与指数限定组合均显示文本因子alpha在不同投资限制条件下具备较好应用适用性


---

主要图表见解:


  • 从多头第一层净值增长曲线(图表8、38、50、54、58、62等)可见,FinBERT新版因子持续跑赢词频向量版,显示了基于深度语义理解的文本分析模型有效捕捉市场增量信息。
  • 分层回测不同因子层级间表现差异告知因子具有良好排序能力,尤其第一层与其他层差异显著,支持模型能够较好区分“高情绪”股票。
  • 扩展测试涉及微调、编码层级选择及文本预处理方式,图表均显示升级模型在各角度均优于或至少不弱于传统或基础版本,证明提升非偶然。
  • 组合层面等权及不等权两种,都显著跑赢中证500,最大回撤约45%-48%,夏普接近1.6,显示稳健的风险调整收益。


---

总体立场与推荐:



华泰证券研究团队对基于FinBERT深度语义编码并结合XGBoost二次学习的文本选股因子给出积极肯定,认为此模型能显著增强券商研报文本的alpha信息提取能力。基于文本因子的主动量化选股策略表现优异,且在多种应用场景均表现稳健。报告提醒量化模型具有历史经验性质,未来可能面临失效风险,投资者应审慎使用。整体来看,报告的评级立场倾向于积极探索与应用基于先进NLP技术的量化因子,支持将FinBERT文本向量因子纳入多因子投资体系,提高股票选股精度和收益性。

---

结语



该报告系统性梳理了分析师研报文本选股因子的生成流程,成功引入了当前最先进的NLP技术FinBERT,并结合机器学习方法极大提升了文本alpha的表现力。通过详尽的模型设计、参数调优、扩展测试和多角度应用验证,展示了金融文本挖掘的深度升级路径和实证成果。对于量化投资中希望充分利用研究报告和舆情信息的从业者和研究人员,报告揭示了方向和方法论,兼具金融专业性和AI技术深度,具有较大的实操与研究参考价值。

---

主要参考文献


  1. PEAD.txt: Post-Earnings-Announcement Drift Using Text (2021)

2. Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers For Language Understanding (2018)
  1. Houlsby et al. Parameter-efficient Transfer Learning for NLP (ICML 2019)

4. Yu Li et al. FinBERT GitHub Repository (2020)

---

(所有结论均基于报告数据及论述,[page::0-38])

报告