人工智能 63:再探文本 FADT 选股
创建于 更新于
摘要
本报告基于对分析师研报文本的深度挖掘,采用FinBERT隐层编码替代传统词频向量,结合XGBoost模型,实现文本因子显著alpha提升。基准文本因子多头年化收益由22.87%提升至27.50%,相对中证500年化超额收益由14.75%升至19.19%。五组扩展测试确认因子升级稳健有效,覆盖不同场景。基于该因子构建的主动量化选股组合回测表现优异,最高年化收益达45.9%,夏普比率1.58,强于传统因子组合表现。文本因子与传统基本面因子相关性低,具有较强特异性,适配沪深300、中证500等股票池表现稳定。 [page::0][page::4][page::5][page::17][page::25][page::37]
速读内容
文本因子升级:FinBERT隐层编码替代词频向量显著提升Alpha [page::0][page::4]

- 多头第一层年化收益率从22.87%提升至27.50%,相对中证500超额收益由14.75%提升至19.19%。
- 采用FinBERT的CLS层768维隐层编码作为文本特征,结合XGBoost二次训练构建forecastadjtxtbert因子。
- 基于该因子构建的25只不等权主动量化选股组合年化收益达45.90%,相对中证500超额36.35%。
研报文本挖掘模型与训练流程详解 [page::2][page::12][page::14]

- 初期采用词频向量分词+XGBoost模型,存在语义信息损失。
- 引入BERT框架,使用金融领域预训练FinBERT模型进行文本编码。
- 微调FinBERT采用万得新闻舆情标注数据,提升分类准确率至95%以上。
- 研报文本经预处理(去除无效字符、截断或分段、添加[CLS]/[SEP]标示),输入FinBERT,提取CLS层特征向量构建因子。
- 结合XGBoost对模型样本内训练与样本外预测滚动训练,利用个股超额收益标签进行多分类训练。
扩展测试显著验证FinBERT编码因子有效性 [page::19][page::22][page::23][page::24]

- 文本处理截断或分段方式均有效,其中分段处理提升组合收益稳定性。
- FinBERT微调较未微调版本效果更优,未微调版本收益提升有限。
- CLS层编码优于微调后全连接层编码,因子分层更加明显。
- CLS编码与词频特征结合稍提升分层效果,但收益无显著增强。
- 仅使用FinBERT微调模型(无XGBoost二次训练)效果显著弱于结合XGBoost因子构建。
不同场景下文本因子持续迎来提升 [page::27][page::28][page::29]

- 业绩发布、卖方评级调整等场景文本因子升级均反映出收益稳健提升。
- 业绩发布文本因子SUEtxtbert多头第一层年化收益显著优于词频版本。
- 评级调整场景forecast
主动量化选股组合构建及超额收益表现 [page::30][page::32][page::35][page::36]

- 以forecast
- 权重调整以股票多空头排列状态为依据,实现不等权增强组合,年化超额收益36.35%,表现优于等权组合。
- 限制成份股市值大于100亿元,构建等权增强组合,年化收益31.12%,相对中证超额23.94%。
- 在沪深300股票池内筛选,构建30只不等权精选组合,年化收益17.58%,超额收益12.44%。
文本因子与传统因子相关性及覆盖度分析 [page::25][page::26]

- 文本因子与Barra动量因子正相关约0.3,与BP因子负相关约-0.3,整体与传统风格及基本面因子相关性较低,具有较强alpha特异性。
- 覆盖度方面,文本因子在沪深300中覆盖度约70-80%,在中证500覆盖度约40-60%。
深度阅读
金融研究报告详尽分析报告 — 《人工智能63:再探文本FADT选股》华泰证券研究
---
1. 元数据与概览
- 报告标题:《人工智能63:再探文本FADT选股》
- 发布机构:华泰证券研究所
- 发布时间:2022年10月28日
- 研究员:林晓明、李子钰、何康
- 研究主题:基于金融领域的预训练自然语言处理模型FinBERT升级分析师研报文本挖掘框架,以提升基于文本因子的股票超额收益预测能力
核心论点
本报告作为华泰证券人工智能选股系列的延续,针对文本股票异常收益套利的因子构建进行方法升级,将传统基于词频向量的文本特征,升级替换为使用FinBERT隐藏层的语义编码,辅以XGBoost模型进行二次训练,实现了显著的Alpha提升。报告全方位实证了升级模型的有效性与稳健性,并以多场景、多案例展示其实际的应用效果。
评级与目标价
本报告为深度研究,不包含具体的公司评级或目标价,旨在方法论创新和因子实证验证,提升文本量化选股效率和准确率。
---
2. 报告逐节深度解读
2.1 分析师研报文本挖掘框架升级
研究回顾
- 方法原理:广泛采用词频向量(TF矩阵)对研报文本进行刻画,以研报前后两天个股超额收益为标签,引导XGBoost模型学习情绪信息,实现FADT选股,逻辑上力图捕捉事件驱动的超额收益现象。
- 缺陷:词频向量本质忽略文本语境,上下文语义信息严重缺失,模型难以精细区分词语组合情绪差异(如“成本上调”与“盈利预测上调”正负情绪相反)。
- 回测表现:能够捕捉显著多头端仓位的超额收益,但对于中间或次强情绪层次的区分效果不理想。
图表1-3显示该方法框架及回测成绩,展示了词频向量版本flash出现的收益曲线分层明显但层级差异中低端表现互相重叠,[page::2]
升级方案
- 采用BERT模型:继承Transformer编码器的双向自注意力结构,学习文本整体上下文语义;替代词频向量为FinBERT的CLS层768维向量,实现语句级别的深度语义表达。
- 采用FinBERT:以金融领域语料专门预训练的BERT版本,覆盖财报、行业研报、金融新闻,融合金融领域词典和任务级别预训练,使模型对财经文本理解更精准。
- 微调Adapter-BERT:通过在Transformer每层插入适配器模块(参数仅为全模型3%),在保持性能的同时大幅节省微调训练成本。
图表4、5清晰揭示了升级框架与流程,[page::3][page::4]
2.2 数据处理与模型训练
- 微调细节:
- 训练样本:14.8万条2015-2017年带金融情绪标签的万得新闻舆情数据,通过均衡正负样本提高分类质量。
- 网络结构含FinBERT+Dropout+2个全连接层,输出情绪类标签,微调后CLS层能高效表征文本。
- 训练损失及准确率收敛稳定,最终验证集准确率95.2%,表明微调充分成功。
- 研报编码:
- 预处理含去除无效字符、断句与固定tokens长度截断或分段两种方案。
- 利用微调后的FinBERT提取CLS层768维隐向量,作为XGBoost输入特征。
- XGBoost训练:
- 标签定义为研报发布前后两天个股相对中证500超额收益,分为上涨(+1)、震荡(0)、下跌(-1)三类。
- 采用滚动训练,样本内6个月,样本外12个月,进行5折交叉验证。
- 最终以log-odds差值构造文本因子,个股当期多个研报因子取均值作为因子值。
图表19至28详细阐述了数据预处理、网络结构与训练流程设计,[page::12][page::13][page::14][page::15]
2.3 数据实证与模型扩展测试
基础模型表现
- 以500tokens长度截断文本基准,FinBERT编码版forecastadjtxtbert因子多头层的年化收益27.5%,超额收益19.19%,较词频向量基线提升近5个百分点,整体各层表现分层效果更明显且长期绩效更稳定。[page::17][page::18]
文本截断与分段对比
- 分段(长文本切割为多条短样本分别编码)方法相较截断效果整体稳定,尤其在近一年度多头超额更平滑,可能因分段增加训练样本覆盖度,提高了稳健性。
- 细分200及500长度均测,结果均优于词频版本,分段稍优。[page::19][page::20][page::21]
FinBERT微调必要性
- 不微调版本因子仍然有效,但多头层超额收益提升有限,且不及微调版本好,说明微调是获取金融领域有效文本向量关键步骤。
- 微调版本可分类准确率95%以上,非微调版约80%。(以万得新闻舆情标注任务衡量)[page::21][page::22]
CLS编码与全连接层编码对比
- 全连接层编码同样有效,但整体表现不及CLS编码,尤其是上层分层区分度没有CLS编码明显。
- 说明FinBERT微调网络CLS层隐藏向量已高度凝聚关键语义信息。[page::22][page::23]
CLS编码与词频向量结合
- 结合词频特征对XGBoost输入,结果无显著超越单独CLS编码,提示CLS编码已基本涵盖所有语义文本信息。
- 但结合词频部分分层表现略优,可能因保留少量词频信息辅助调节。[page::23][page::24]
仅FinBERT微调对研报文本直接预测
- 将FinBERT微调标注标签改为研报前后超额收益分类,跳过XGBoost建模,结果较弱,推测是BERT参数规模大,对单一任务训练样本不足,直接微调含市场价格标签难度大。
- 表明分步训练(文本情感微调+XGBoost监督)更充分彰显模型能力。[page::24][page::25]
相关性与覆盖度分析
- 因子与动量因子正相关 ~0.3,与账面市值负相关 ~-0.3,和其他主流Barra因子相关度低。
- 传统基本面因子相关性普遍低于0.5,表明文本因子掘金非传统信息源。
- 因子覆盖度在沪深300约70-80%,在中证500范围40-60%,覆盖广泛但仍受研报覆盖限制。[page::25][page::26]
2.4 不同场景下文本因子升级
业绩发布场景
- 业绩发布相关研报(公告涵盖业绩预告、快报、年报)统一处理,训练和因子构建均融合多类型公告,但每季度内优先使用业绩预告或快报,避免重复。
- 升级后SUEtxtbert因子首层年化收益显著超越词频编码版本且长期稳定,覆盖度持续提高。[page::27][page::28]
评级调整场景
- 针对卖方分析师评级调整发布的点评研报构建升级版文本因子forecast
- 升级后因子表现明显强于词频版本,收益分层更分明,表明FinBERT模型升级增强了评级变动文本信息的解读和预测能力。[page::28][page::29]
---
3. 图表深度解读
- 图表5(FinBERT+XGBoost框架):展现了FinBERT对研报文本编码提取CLS层向量作为特征,并结合XGBoost监督学习构造选股因子的流程,体现了上下文语义理解与传统机器学习结合的创新点。[page::4]
- 图表8、9(两版本第一层净值及超额净值对比):FinBERT版本多头层净值呈现长期优化趋势,累计收益和相对中证500净值均优于词频版本,风险调整后的夏普比率亦更高,验证了升级模型实质alpha提升。[page::5]
- 图表23、24(FinBERT微调损失与准确率):展示微调训练中模型损失平稳下降,准确率迅速提高并收敛至95%左右,证明微调训练数据和方法有效,增强了文本编码语义表达能力。[page::13]
- 图表28(滚动训练示意):清晰说明了训练与测试时间窗口的滚动设置,6个月样本内、12个月样本外滚动划分,有利于避免未来数据泄露,保证模型预测的真实性和实用性。[page::15]
- 图表31、32(文本因子分十层绝对与相对净值):体现FinBERT升级使得多头层的盈利显著提升,中间及底层区分度加大,收益曲线更加稳健与上升趋势明显。[page::17]
- 图表42-48(截断与分段处理比较):分段处理的因子净值比截断更为平滑稳健,潜在因分段增加语义捕捉信息量,减少关键信息截断的负面影响。[page::20][page::21]
- 图表50-52(FinBERT微调与不微调):微调后模型净值表现明显优于不微调版本,后者与词频版本接近,突出微调的重要性。[page::22]
- 图表54-57(CLS编码与全连接层编码):全连接层编码虽优于词频向量,但整体表现及分层不及CLS层,验证CLS层语义特征的凝练效果。[page::23]
- 图表58-61(CLS编码与词频向量结合):结合词频后整体收益无明显提升,表明CLS编码覆盖了大部分语义信息;但分层区分更显著,提示非线性整合仍有辅助价值。[page::24]
- 图表64-67(因子与Barra及传统因子相关性及覆盖度):说明文本因子提供信息是传统因子覆盖之外的独特alpha源,且覆盖了沪深300及中证500较广股票池,易于实际运作。[page::25][page::26]
- 图表69-73(业绩发布场景升级):新因子在业绩发布场景表现稳定且收益显著优于旧版,覆盖度上升,表现及适应性进一步提升。[page::27][page::28]
- 图表74-78(评级调整场景升级):升级后因子与基线版明显分离提升,能够更有效捕捉评级调整事件的价格影响。[page::28][page::29]
- 图表80-83(主动量化组合案例和业绩):20余年回测体现稳健的超额收益,夏普比率超过1.5,反映量化框架经过多重验证具投资价值。[page::30][page::31]
- 图表84-89(不等权组合及权重调整):策略将技术指标融入权重调整提升风险调整后收益,且最大个股权重受到严格控制,增强风险管理。[page::32][page::34]
- 图表90-96(市值限制及沪深300选股策略):考虑实际投资限制,策略对大市值股票表现良好,同时构建沪深300内精选组合表现显著超越指数,展现因子广泛应用潜力。[page::35][page::36]
---
4. 估值分析
本报告不涉及具体标的证券的绝对估值或目标价,仅针对文本挖掘选股因子建模及策略进行研究,没有独立的估值分析章节。
---
5. 风险因素评估
- 历史经验局限:文本因子策略基于历史数据和机器学习模型,存在未来失效风险,不保证过去绩效能延续。
- 模型解释性弱:深度学习特别是FinBERT这类预训练模型解释性较差,实际应用时投资者难以完全理解模型决策过程,存在“黑盒风险”。
- 市场环境变化:行情与研报发布机制可能发生变化,信息含量改变会影响模型有效性。
- 数据依赖与复现性:使用开源模型及外部数据,需注意数据质量和模型复现风险。
- 超参数设置和过拟合可能:虽报告中扩展测试证明过拟合风险低,但仍不可完全排除,需持续跟踪验证。
报告明确提示模型及策略具备以上局限(风险提示页)[page::0][page::38]
---
6. 批判性视角与细微差别
- 技术路线依赖:报告核心改进基于FinBERT及Adapter-BERT技术架构,依赖金融领域预训练数据质量及适用性,跨市场或未来语境变迁适用风险存在。
- 模型参数调整空间大:虽然报告涵盖多次超参数调整测试,但选择最优参数常隐含选择偏差,模型稳健性仍有考验空间。
- 效用集中于多头层:分层回测中明显多头收益突出,其他层次提升有限,提示模型区分度可能仍有优化空间。
- 微调训练标签选择较复杂:用市场超额收益做标签合理但或带来宏观行情偏差影响模型独立泛化能力。
- 组合选股案例仍需实盘验证:虽历史回测优异,实际资金运营中面临交易成本、流动性等限制,业绩表现可能受限。
- 因子与传统因子相关性虽低,但结合方法仍需进一步研究以提升整体组合效果。
---
7. 结论性综合
本报告全面且系统地展示了文本FADT选股因子的升级框架与应用潜力。通过引入金融专用的预训练语言模型FinBERT,利用其语义理解的能力提取分析师研报文本的深层次语义特征,替代传统词频向量,辅以XGBoost监督学习,实现了文本情绪因子的显著alpha提升。具体标志为多头分层的年化收益率从原有22.87%提高到27.50%,相对基准中证500的超额收益幅度亦多提升近5个百分点。
报道辅以五组扩展测试,从文本预处理截断与分段方法、FinBERT微调必要性、不同编码层选择、编码特征与词频结合、到单独FinBERT微调方案,严密验证了升级因子的稳健性与有效性。此外,跨业绩发布、卖方评级调整等多个实际场景同样获益,展示了方法的广泛适用性。
重点应用案例涵盖:
- 25只主动量化选股不等权组合——整合12个核心量价及基本面因子,经多空头排列判断权重调节,历时近15年回测收益稳健,年化达近46%,超额幅度超过36%,夏普比率超1.5,表现卓越。
- 拓展到市值限定股票池(市值>100亿)——精选组合依然保持强劲收益,年化收益可达31%以上,涵盖更适用主流机构投资范围。
- 沪深300内精选30股组合——不设行业及风格约束,直接基于文本因子排序,年化收益达17.58%,显著超越沪深300指数。
从定量数据、图表变化、扩展因子测试到实操案例,本报告呈现了基于FinBERT升级的文本量化策略的全面提升,验证了高阶NLP技术赋能金融选股的实用价值,是文本挖掘和量化投资领域切实可行的创新路径。报告同时厘清了风险限定及模型局限性,为实践提供稳健保障。
---
重要图表示意链接
- 两版本文本因子多头第一层净值对比
- 不等权量化增强组合回测业绩

- FinBERT微调准确率曲线
- 词频与FinBERT编码因子多头对比

- 文本因子与Barra风格因子相关系数
- 等权增强组合回测净值

- 不等权增强组合回测净值
- 沪深300精选组合回测净值

---
本文所有数据基础源自Wind数据库、朝阳永续及华泰证券研究部门历史回测期20090123-20220930的样本数据,和开源FinBERT模型与Adapter-BERT技术改造,研报文本收集广泛覆盖金融分析师行业报告。
[page::0], [page::2], [page::3], [page::4], [page::5], [page::12], [page::13], [page::14], [page::15], [page::17], [page::18], [page::19], [page::20], [page::21], [page::22], [page::23], [page::24], [page::25], [page::26], [page::27], [page::28], [page::29], [page::30], [page::31], [page::32], [page::33], [page::34], [page::35], [page::36]
---
免责声明
本文仅供研究与交流使用,不构成任何投资建议。投资有风险,入市须谨慎。[page::38]
---
(全文结束)