`

LLM-FADT 大模型增强文本选股

创建于 更新于

摘要

本报告基于开源大模型Qwen3-8b,对传统BERT-FADT文本选股策略进行增强,构建LLM-FADT因子。通过大模型对分析师文本多视角重构,生成行情催化剂、言外之意、潜在风险、收益指引等增量信息,丰富文本特征输入XGBoost模型训练,显著提升因子效果。LLM-FADT多头等权及因子增强Top25组合均优于增强前,年化超额收益率最高达27.60%,信息比率2.21。应用场景包含沪深300增强组合和医药行业增强组合,年化超额收益率分别为12.16%和18.53%,有效满足少成分股指数增强与行业增强需求。策略回测显示稳健超额收益与较好风险调整表现,为文本量化投资提供创新范式[page::0][page::1][page::2][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15]

速读内容


LLM-FADT策略框架与大模型增量信息利用 [page::0][page::4][page::5]

  • 利用Qwen3-8b大模型对分析师文本进行多角度重构:标题新解、行情催化剂、言外之意、潜在风险、收益指引。

- 模拟人类的个性化推理演绎行为,获取文本隐含信息,作为FinBERT输入特征增强XGBoost模型学习。
  • 采用滚动训练与测试方法,样本内为过去6个月,样本外为未来12个月。


不同文本因子表现与相关性分析 [page::7][page::8][page::9]


| 文本维度 | 分层1绝对收益 | 分层1超额收益 | 相关性(与原始文本) |
|----------|--------------|--------------|------------------|
| 原始文本 | 16.81% | 18.17% | 1.00 |
| 行情催化剂 | 17.30% | 18.67% | 0.61 |
| 标题新解 | 14.57% | 15.90% | 0.70 |
| 言外之意 | 15.00% | 16.34% | 0.68 |
| 潜在风险 | 15.26% | 16.60% | 0.52 |
| 收益指引 | 16.12% | 17.48% | 0.70 |
  • 行情催化剂文本回测效果领先,分层收益单调性良好,相关性低,增量信息显著。

- 潜在风险因子与原始文本相关性最低,提供较独立的信息。
  • 标题新解、言外之意及收益指引与原始文本相关性较高。


因子合成方案对比与最终因子选择 [page::9][page::10]

  • 两种合成方案:先合成后训练与先训练后合成。

- 先训练后合成方案因分层一、十层差异更大,表现更优,最终构建LLM-FADT因子。
  • LLM-FADT因子相较BERT-FADT因子,多头等权组合及因子增强Top25组合均表现更佳。


LLM-FADT多头等权组合与因子增强Top25组合绩效对比 [page::10][page::11]


  • LLM增强后的多头等权组合年化收益18.08%,超额收益19.86%,信息比率2.06,月胜率74.26%。

- 因子增强Top25组合年化超额收益27.60%,信息比率2.21,超额收益持续优于BERT-FADT组合。

因子增强组合持股数量对净值表现的影响 [page::11]

  • 构建Top25、Top50、Top100组合,发现成分股增加能减缓后期净值比下降趋势,甚至转正,表明一定规模持仓对LLM增强效果有积极影响。




LLM-FADT沪深300 Top25增强组合与医药行业增强组合应用案例 [page::12][page::13][page::14][page::15]

  • LLM-FADT沪深300增强组合年化超额收益12.16%,相对基准月胜率59%,年化收益率13.65%,适合少成分股指数增强需求。

- 医药行业增强组合年化超额收益18.53%,年化跟踪误差12.22%,月胜率69%,引入组合优化约束实现稳定超额收益。



风险提示和研究说明 [page::15][page::16]

  • 大模型输出准确度存在风险,需谨慎选择与使用。

- 投资策略基于历史数据拟合,存在失效可能。
  • 本报告仅供专业投资者参考,不构成具体投资建议。


深度阅读

华泰金工 | LLM-FADT 大模型增强文本选股——全面分析报告



---

一、报告元数据与概览


  • 标题:华泰金工 | LLM-FADT 大模型增强文本选股

- 作者:林晓明、何康、沈洋
  • 发布机构:华泰证券金融工程部

- 发布日期:2025年6月12日
  • 主题:基于大语言模型(LLM)对分析师文本的选股策略增强,构建LLM-FADT策略及其应用,聚焦文本解析能力的提升及策略实证效果。


核心论点与目标价:报告基于前期《人工智能63:再探文本FADT选股》(20221028)报告,采用开源大模型Qwen3-8b对此前BERT-FADT选股策略进行多角度文本重构,生成额外增量信息,进而大幅提升文本选股因子表现。LLM-FADT策略在因子分层回测、多头等权组合及因子增强组合中均展现出优异的业绩,年化超额收益率、信息比率及相对基准月胜率全面提升。

---

二、逐节深度解读



2.1 研究导读与背景(第1-3页)


  • 关键论点:传统文本分析因依赖原始文本固有特征,难以模拟人类个性化推理演绎,大语言模型(LLM)则通过生成式架构优势,具备对文本进行多维重构的能力,能够捕捉诸如行情催化剂、言外之意、潜在风险等隐含信息。

- 推理依据:对比BERT与GPT模型架构,BERT基于Encoder-only结构适合理解任务,GPT基于Decoder-only架构更擅长文本生成,本文采用Qwen3-8b(类似GPT的Decoder架构)实现文本推理演绎。
  • 主要数据与逻辑

- Qwen3-8b模型在多项通用、代码和数学测试中表现优异(见图表4),兼具“快思考”和“慢思考”两个推理模式,本文为提升效率采用“快思考”模式。
- 通过五种角度对分析师文本重构:标题新解、行情催化剂、言外之意、潜在风险、收益指引,生成增量信息;并以XGBoost作为后端训练模型,实现情感倾向与超额收益的关联。

2.2 LLM-FADT构建流程(第5-6页)


  • 流程总结

1. 采集分析师原始文本及LLM重构的五类文本。
2. 使用微调的FinBERT提取每类文本的768维特征向量。
3. 分别以每类文本向量为输入训练XGBoost三分类模型,预测样本标签为分析师研报发布前后两日超额收益状态(三分类:上涨、震荡、下跌)。
4. 采用滚动训练验证机制,每周期样本内训练半年,样本外预测次年。
5. 多种因子结合构建最终LLM-FADT组合因子。
  • 技术细节

- XGBoost超参数采用网格搜索优化,模型训练过程采用5折交叉验证。
- 模型标签定义为$T{-1} \sim T{+1}$区间的超额收益,样本外回溯区间三个月,用以构建当月因子值。
- 结合多因子增强方案,对基础股票池Top25个股加权,综合基本面、技术面及市值等辅助因子进行行业市值中性化调整。

2.3 不同文本视角提取效果对比与回测(第7-9页)


  • 关键发现

- “行情催化剂”文本因子表现最优,分层1(最优层)年化超额收益率高达18%左右,信息比率达到1.86,且超额收益最大回撤较低。
- “言外之意”文本表现中等偏下,分层10(最差层)收益最低,表明该文本可能存在噪声或负面误导。
- 不同文本因子分层收益呈明显单调递减趋势,支持因子有效性假设。
  • 组合表现

- 不同文本构建的多头等权组合及因子增强Top25组合均表现较基准中证500明显超额收益,行情催化剂文本优势突出。
- 不同文本因子间相关性较低,尤其“潜在风险”与“行情催化剂”与原始文本相关度仅约0.5-0.6,证实它们带来独特增量信息。

2.4 文本因子合成方案比较(第9-10页)


  • 先合成后训练:六类文本特征向量先平均合成,后训练一套XGBoost模型。

- 先训练后合成:六类文本分别训练独立XGBoost模型后,将各模型预测值平均合成。
  • 测试结果

- 先训练后合成方案在多头最优层(分层1)与空头最差层分化更明显,绝对与超额收益均显著优于先合成后训练。
- 因此,本文最终采用“先训练后合成”方案,构建更优的LLM-FADT策略因子。

2.5 LLM增强前后策略表现对比(第10-12页)


  • 多头等权组合

- LLM-FADT组合较BERT-FADT组合累计超额收益更高,回撤更低,年化超额收益率和信息比率分别提升约5个百分点和0.3左右。
- LLM增强后组合的相对基准月胜率提升了超过5个百分点,换手率略有下降,提升了策略稳定性。
  • 因子增强Top25组合

- LLM增强前后组合均实现正向超额收益,LLM增强后超额收益更为突出且具更高的Calmar比率,表明其回撤相对较小,风险调整后的表现更优。
  • 组合规模影响

- 将Top25组合扩大到Top50及Top100后,LLM增强后组合净值比下降趋势开始减缓甚至反转,显示LLM优势随着成分股数量增加而更为明显,成分股数目不足时可能限制效果发挥。

2.6 LLM-FADT策略应用案列(第12-15页)


  • 沪深300少成分股增强组合

- 利用LLM-FADT因子针对沪深300成分股定制训练标签,构建Top25增强组合。
- 回测区间表现稳健,年化收益率13.65%、年化超额收益率12.16%、相对基准月胜率59%。
- 该组合满足投资管理人“少即是多”需求,持股结构紧凑且超额表现稳定。
  • 医药行业增强组合

- 针对中证医药卫生指数制定专项增强策略,结合组合优化求解最大收益与换手率约束。
- 医药行业增强组合年化超额收益高达18.53%,年化跟踪误差12.22%,相对基准月胜率69%,年化双边换手率3.34,表现优异且换手适中。
- 该策略满足行业赛道深耕需求,同时体现LLM-FADT策略优异的行业适应性。

---

三、图表深度解读



3.1 模型架构对比与结构优势(图表1)


  • BERT为Encoder-only结构,侧重文本理解;GPT为Decoder-only结构,具备更强文本生成能力。

- Qwen3-8b采用Decoder架构,适合多角度文本重构,模仿人类文本推理和生成过程。
  • 图示清晰展示Transformer架构差异,为策略设计提供理论基础。


3.2 累计超额收益表现(图表2、3)


  • 图表2展示LLM增强前后多头等权组合累计超额收益对比,虚线(LLM增强后)自2020年后明显拉开优势,2025年累计超额收益约3.2倍,显示策略稳定提升。

- 图表3因子增强组合更为明显,LLM增强后累计超额收益至2025年已超过6倍,提高超额收益幅度更大。

3.3 不同文本因子分层收益表现(图表11)


  • 表格清晰标示分层1至分层10对应的绝对及超额收益。

- 行情催化剂文本分层1绝对、超额收益最高,言外之意分层10表现最差,验证对文本细分视角有效捉取投资价值。
  • 数据体现回测竖向单调减弱趋势,说明因子分层识别能力强。


3.4 文本因子相关性(图表16)


  • 原始文本与行情催化剂相关性较低(约0.61),表明行情催化剂捕获独特信息,不完全冗余。

- 潜在风险与其余因子相关性最低(约0.5),进一步增强文本多样性优势。

3.5 合成方式分层收益曲线(图表17-20)


  • “先训练后合成”高低分层收益差别明显,强调该方案更有利于捕捉投资信号。

- “先合成后训练”曲线更为平滑但区分度较低,说明合成特征后训练存在信噪比稀释影响。

3.6 不同组合累积超额收益(图表22、24)


  • 多头等权组合(图22)及因子增强组合(图24)均显示LLM策略累计超额收益领先。

- 2025年累计超额收益及信息比率明显优于未增强版,策略稳定性和盈利能力均得到有效提升。

3.7 应用组合策略表现(图表30、33)


  • 沪深300 Top25增强组合表现持续优于沪深300指数,在多次市场波动中维持较高的超额回撤控制。

- 医药行业组合表现稳定,年化超额收益率达到近20%,表现出较强的赛道适应性和精选能力。

---

四、估值与策略性能分析



本报告主要聚焦于基于文本解析强度的因子构建及组合回测,未涉及传统的财务估值模型(如DCF、市盈率等)。策略性能主要通过以下关键业绩指标衡量:
  • 年化收益率年化超额收益率:衡量策略绝对及相对收益能力。

- 信息比率(IR):衡量超额收益与跟踪误差的比率,反映策略风险调整收益能力。
  • 最大回撤(Max Drawdown)Calmar比率:评估策略承受最大下跌幅度和风险调整表现。

- 相对基准月胜率:反映月度相对基准的超额收益稳定性。
  • 换手率:体现策略交易频度及成本敏感性。


LLM增强策略在上述指标全部表现优于BERT基线,证实文本信息增量的重要性及LLM推理能力优势。

---

五、风险因素评估


  • 模型风险:大模型基于海量数据训练,输出结果可能包含不准确或误导信息,存在模型偏差及过拟合风险。

- 数据风险:分析师文本质量、新增信息的解读正确性依赖于文本数据完整性及预处理精度。
  • 策略失效风险:机器学习模型基于历史数据的学习,未来市场环境变化可能导致模型失效。

- 信息安全及隐私风险:非本地运行大模型处理敏感数据可能存在泄露风险。
  • 计算资源与实时性:大模型运算资源消耗较大,限制了高频应用场景。

- 模型选择风险:不同大模型性能存在差异,适用于特定任务的模型需谨慎选择。

报告提示风险同时未提供具体缓释策略,投资使用需结合风险管理框架谨慎执行。

---

六、批判性视角与细微差别


  • 优势

- 系统性比较BERT与GPT类大模型架构优势,理论基础合适。
- 多维文本视角重构新颖,充分模拟人类文本推理行为,技术路线清晰合理。
- 大量实证数据支持策略有效性,回测周期较长,结果具有一定代表性。
  • 局限与谨慎点

- 组合回测整体基于历史数据,未对策略抗过拟合能力及未来稳健性展开充分讨论。
- 文本“言外之意”因子表现较差,可能反映大模型推理时存在噪声,需进一步优化。
- 未涉及不同市场环境(牛市、熊市)下策略表现的敏感性与稳定性分析。
- 大模型“快思考”模式快速但可能牺牲理解深度,长期是否最优未论证。
- 图表中偶有细节描述瑕疵,如部分表格格式混乱,个别数据存在格式错误(需再核验)。

---

七、结论性综合



华泰金工基于开源大语言模型Qwen3-8b,成功对分析师文本FADT选股策略进行多角度重构,形成LLM-FADT策略。该策略利用大模型模拟人类阅读文本时的推理演绎行为,补充原始文本隐含信息,有效提升了文本因子的解释力和选股能力。
  • “行情催化剂”文本因子在分层回测、组合回测均领先,体现其对捕捉投资机会的核心价值。

- “潜在风险”文本与原始文本相关性较低,提供了独特风险信号,有利于风险管理。
  • “先训练后合成”的多模型融合方法优于“先合成后训练”,两步分别训练再合成预测值效果最佳。

- LLM增强策略综合多项指标(年化超额收益率、信息比率、最大回撤等)均超越传统BERT-FADT,堪称一种有效的文本增强选股方法。
  • 个性化应用案例方面,LLM-FADT针对沪深300及医药行业指数推出少成分股增强组合和行业增强组合,均获得显著超额收益和稳定回撤表现,满足实际投资需求。


最终,报告认为LLM-FADT策略不仅增强了股票投资决策的文本信息提取维度,也为智能量化投资提供了可复制且具稳定性的文本因子增强范式,具有较强的实用价值和推广前景[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14].

---

全文重点图表展示


  • 图表1:BERT与GPT模型Transformer架构差异


  • 图表2:LLM增强前后多头等权组合累计超额收益对比


  • 图表11:不同文本因子分层绝对与超额收益对比

(行情催化剂表现最佳,言外之意表现最差)
  • 图表16:文本因子相关性矩阵

(行情催化剂和潜在风险与原始文本相关度较低)
  • 图表22:LLM增强前后多头等权组合累计超额收益与净值比


  • 图表24:LLM增强前后因子增强Top25组合累计超额收益对比
  • 图表30:LLM-FADT Top25沪深300增强组合回测净值表现


  • 图表33:LLM-FADT医药行业增强组合回测净值表现



---

结语



本报告充分验证了大语言模型在金融文本解析领域的增值潜力,证明了应用生成式模型对分析师文本进行多角度推理重构,能够显著提高选股因子表现及组合业绩。策略结合经典机器学习技术完成稳定训练与因子合成,有效融合了前沿NLP技术与传统量化投资框架,展现较强的研究与应用价值。

投资人和量化研究员在理解和使用本策略时,应关注模型更新迭代的持续性、文本数据质量以及算法过拟合风险,结合多因子、多策略框架,实现风险可控且收益稳健的投资目标。

---

以上内容均基于华泰证券2025年发布的《LLM-FADT大模型增强文本选股》研究报告内容整理和详细解读,页码已在对应引用处标注。

报告