`

中金 | 大模型系列(2):LLM在个股投研的应用初探

创建于 更新于

摘要

本报告以大语言模型(LLM)应用于个股投研为主题,提出基于LLM的基本面因子挖掘框架和个股复盘体系。通过设计不同prompt引导因子创造,挖掘出IC_IR可达0.78的高效因子,并构建复盘框架自动提炼公告及研报关键信息,实现基于LLM观点的个股择时策略,提升未来中长期收益胜率,且策略回测显示最大回撤改善。报告同时指出LLM结果的随机性与深度局限,建议在实际应用中结合多次生成与优质研报输入以提升稳定性与效果。[page::0][page::1][page::6][page::8][page::11][page::16]

速读内容


LLM在个股投研中的优势与局限 [page::2]


  • LLM具备创造力、处理非结构化信息能力强。

- 限制包括响应速度不足、上下文长度限制及生成结果随机性。
  • 难以直接处理全市场大量文本,建议局部应用于核心股票或特定任务。


基于LLM的基本面因子挖掘框架及流程设计 [page::3][page::4]


  • 因子生成依赖精心设计的prompt引导,在财报科目与预定义算子范围内生成新因子公式。

- 需对生成的因子公式做合理性检验,合格后在量化平台计算与测试。
  • 因子生成随机性大,计算测试阶段依托确定平台完成。


不同prompt设计影响因子生成效果与创新性 [page::5][page::6]


  • 未限定因子方向生成有效因子比例低,但创造性高,与现有因子相关性低。

- 明确质量类和运营类prompt生成因子IC均值较高,创新性较低。
  • 合理结合经验引导prompt,有助提升有效因子生成数量和质量。


LLM挖掘的因子表现与创新性分析 [page::6][page::7]


(部分文字摘要)
  • 挖掘因子大多逻辑自洽,部分因子生成逻辑与计算不完全匹配存在瑕疵。

- 引入创新算子优化传统因子,表现优于原因子。
  • 创造出新型因子如TRIRDEFF涉及税收红利和研发投入,ICIR达0.78。


基于LLM的个股复盘体系设计与信息提炼流程 [page::8][page::9]


  • 通过RAG方法从公告、研报、调研记录里自动提炼关键信息,构建结构化事件。

- 结合历史关联文本对当前信息超预期程度进行量化研判,输出短期/长期综合评分。
  • 与现有数据库无缝衔接,复盘效率提升70%。


个股复盘效果及改进建议 [page::10]


(简述复盘效果和对比案例)
  • 复盘信息真实性较好,结合优质研报输入效果更佳。

- 研判观点有一定参考价值但深度不足,存在逻辑瑕疵。
  • 建议针对个股prompt聚焦核心基本面因素,提升复盘准确度。


LLM综合评分择时效果分析 [page::11][page::12]




  • 长期综合评分大幅变化与未来20-60日股价收益相关性较好,短期相关性较弱。

- 多只核心股票长期评分大幅提升时,未来20交易日平均收益率及胜率明显提升。
  • 设计多头择时策略以评分阈值买入,策略显著改善最大回撤并提升年化收益。


多只核心股票择时策略回测表现 [page::14][page::15]





  • 多头策略回测显示,总体胜率较高,年化收益改善,且显著降低最大回撤率。

- 股票包括贵州茅台、宁德时代、招商银行和中芯国际,均表现较好。

总结与风险提示 [page::16]

  • LLM加速投研信息处理效率,有较好信息提炼与择时参考价值。

- 生成结果具有随机性和逻辑不足,建议多次生成并结合核心因素提示与优质研报输入。
  • 本报告采用RAG与prompt设计方法,探索LLM在个股投研的创新应用场景。

深度阅读

中金|大模型系列(2):LLM在个股投研的应用初探——详尽分析报告解构



---

1. 元数据与概览


  • 报告标题:大模型系列(2):LLM在个股投研的应用初探

- 作者:古翔、周萧潇、刘均伟
  • 发布机构:中金公司量化及ESG团队

- 发布日期:2025年5月15日
  • 主题:利用大型语言模型(LLM, Large Language Model)技术在个股投资研究(投研)领域的创新应用,包括基本面因子挖掘和个股复盘体系的构建。


核心论点:随着资本市场信息流程的数字化和非结构化数据的爆炸式增长,传统投研手段面临效率和认知瓶颈,LLM作为具有强大文本理解和推理能力的工具,能够有效转化主观逻辑因子为量化因子,并支持智能化个股日常复盘,提供带置信度的初步投资见解,具有显著提升投研效率和质量的潜力。

报告重点展示了两个创新应用场景:
  • 基于LLM的基本面因子挖掘框架:利用LLM的创造性能力,加速投资逻辑向量化量化的转化,提升因子创新效率和质量。

- 基于LLM的个股复盘体系:通过对公告、研报、调研数据的非结构化信息提取与逻辑推演,实现个股事件的快速总结与研判,为投资决策提供有效参考。

报告未提供具体投资评级或目标价,侧重于技术工具的研发与应用验证,强调LLM对投研工作流的改造潜能 [page::0,1,2,3,8]。

---

2. 逐节深度解读



2.1 LLM在个股投研应用背景与优势局限


  • 报告回顾之前在行业轮动、市场择时等量化策略中应用LLM已实现超额收益,进一步聚焦个股投研层面,重点解决非结构化数据的提取与推理问题。

- 优势主要体现在:
- 创造力:文本推理机制带来一定程度的策略创新能力。
- 信息处理能力:高效抽取关键信息,尤其在非结构化文本中精准萃取有效信号。
  • 局限:

- 响应速度不足:全市场股票信息量大,实时性存在瓶颈。
- 上下文长度限制:无法一次性处理大体量及多源文本。
- 结果随机性:概率模型本质导致生成内容存在波动,可复现性略差。

作者建议在有限场景中扬长避短应用,比如核心股票池,以及重点因子生成和个股复盘 [page::2,3]。

2.2 基于LLM的基本面因子挖掘框架设计及成果


  • 因子挖掘流程拆解:

- 因子生成:利用LLM基于财报科目、算子明细、已有因子,用特定prompt指导在限定范围内构造新因子计算公式与因子逻辑。
- 合理性检验:剔除不符合算子或涉及非法变量的生成因子。
- 因子计算与测试:本地量化平台精确计算因子值并检验有效性。
  • Prompt设计

- 设计多维度prompt,引导因子逻辑方向:未限定(促进创新)、质量类、运营类、治理类。
- 不限定方向prompt虽有效因子概率低,但创造性和低相关因子比率高;限定方向prompt增加有效因子产出,因与已有因子相关性较高。
  • 核心结论

- LLM能生成逻辑清晰且可理解的因子,优化传统因子(比如通过综合算子提升盈余质量因子EPCF),挖掘创新型因子(含税收红利、研发等新元素的链税研协同效能因子TRIRDEFF)。
- 回测中某些因子IC
IR达到0.78,表现优异。(ICIR为信息系数与信息比率的复合指标,衡量因子预测能力和稳定性)
  • 劣势与挑战

- 某些因子逻辑描述与算法计算偏离,存在因子逻辑与计算过程不匹配现象。
- 生成过程存在随机性,质量控制依赖多次生成和后期筛选。

此部分配套图表展示了框架流程(图表3)、因子有效性结果及IC统计(图表4-7),清晰验证了LLM在因子挖掘中的创新贡献及部分限制 [page::3,4,5,6,7,8]。

2.3 基于LLM的个股复盘体系设计与实证效果


  • 复盘体系设计核心

- 利用LLM语义理解和事件抽取能力整合公告、研报、调研,多源异构非结构化数据自动识别关键事件(战略合作、财务异动、政策关联)并生成结构化事件库。
- 结合近期历史信息,利用LLM推理输出带置信度的短期与长期股价影响判断(-1至1评分)。
- 通过API接口无缝对接Wind等现有数据库,提升复盘效率,节省超70%基础信息处理成本。
  • 实现细节

- 应用RAG(Retrieval-Augmented Generation)方法有效解决长文本输入限制,通过分块检索高关联文本辅助生成,降低“幻觉”风险。
- 设计prompt预定义“超出市场预期”的判断标准,增强研判精准度。
  • 实证案例(贵州茅台)分析

- 复盘所提炼信息与公告、研报数据高度对应,体现信息真实可靠。
- 高质量研报输入显著提升关键信息提炼及观点准确性。
- 观点逻辑自洽,短期长期评分均反映一定股价表现指示,但具体超预期判断仍有瑕疵(如未充分考虑战略层面或过于片面)[page::8,9,10]。
  • 量化择时检验

- 长期综合评分呈现弱正相关于未来20-60交易日股价表现(相关系数0.259-0.274),短期评分对短期收益预测能力不足。
- 多只核心股票(贵州茅台、宁德时代、招商银行、中芯国际)基于长期综合评分变化的分组表现显示,评分大幅提升组未来月收益及胜率明显优于低评分组,呈现一定策略信号价值。
- 以长期评分变化>0.07为持仓信号的多头择时策略,在回测期内显著降低最大回撤、提升年化收益,表现稳定优于不择时策略,特别在2024年下半年把握主升浪阶段效果明显。
- 以上结果在单只股票多头策略回测图(图表15-18)和策略收益综合统计(图表19)中展示清楚。

结论为LLM复盘观点具有实际投研应用价值,尤其长期信号在择时上可辅助提升决策有效性。作者建议为提升复盘质量,应用时需针对个股核心基本面因素设计prompt,并融合高质量研报作为关键输入,进一步减少解读偏差 [page::11,12,13,14,15,16]。

2.4 风险与限制


  • LLM固有的生成随机性导致结果难以高度复现。

- 生成过程需多次抽样取均值提升稳定性。
  • 复盘深度尚有限,部分判断尚不成熟。

- 受限于当前上下文长度,难以实现全市场全覆盖。
  • 对因子生成逻辑的准确性和量化验证依赖严格本地验证体系。


风险的明示符合对生成模型应用的谨慎态度,有助于用户合理预期和有效应用[page::8,16]。

---

3. 图表深度解读



图表1:LLM在个股投研应用中的优劣势分析(页面2)


  • 内容:图示LLM的3大优势(创造力、处理非结构化信息能力)及3大局限(响应速度、上下文长度、结果随机性)。

- 解读:直观呈现LLM在个股投研中的双刃剑特质,强调需扬长避短选择应用场景。

图表2:LLM应用场景细分(页面3)


  • 通过图形划分因子挖掘、个股复盘、核心股票LLM因子三大应用方向,清晰规划未来发展蓝图与重点落地路径。


图表3:基于LLM的基本面因子挖掘框架流程图(页面4)


  • 流程从输入数据、LLM处理、合理性检验到因子计算与测试,结构严谨,

- 强调了prompt设计与本地量化平台的结合,减少LLM随机性风险。

图表4:不同prompt设计下生成有效因子数量统计(页面6)


  • 条形图展示未限定与限定(质量、运营、治理)因子构造方向prompt的数量、IC表现和与已有因子相关性。

- 体现针对性prompt提高了有效因子产出,同时面临较高相关性问题,需在创新和实用间权衡。

图表5-7:LLM因子示例及有效性统计(页面6-7)


  • 展示具体因子案例,验证其逻辑一致性与计算匹配情况。

- LLM产生高IC
IR因子,尤其创新型因子IC>3%,相关性低于30%,说明对现有因子补充作用显著。

图表8:基于LLM的个股复盘框架设计(页面9)


  • 结构明晰地展示信息抓取、信息检索、初步研判至观点保存的闭环流程,

- 标明使用RAG避免单模型处理长文限制,设计完善。

图表9-10:贵州茅台个股复盘观点示例(页面9-10)


  • 表格形式展示复盘核心信息及评分,内容真实可核,体现RAG方式对减少LLM幻觉生成的效果。


图表11-14:综合评分分布与未来收益相关性、分组收益率和胜率数据(页面11-13)


  • 评分分布表明长期评分倾向正面,短期评分有风险提示。

- 统计显示长期评分提升有助于预测未来20-60日股价表现。
  • 分组图形显示各个股票在高评分组的未来收益与胜率优势。


图表15-19:多头择时策略回测(页面14-16)


  • 覆盖贵州茅台、宁德时代、招商银行和中芯国际4只核心股票。

- 策略明显在控制回撤、提升年化收益和捕捉主升浪阶段表现出优势,
  • 突出LLM观点实际可操作的择时价值。


---

4. 估值分析



报告本身无具体估值分析与目标价设定,因核心聚焦于技术和方法论创新,故此部分不涉及传统现金流折现或可比估值法讨论[全报告未涉及估值]。

---

5. 风险因素评估


  • 生成随机性导致结果不具高度可复现性,需采取多次生成平均等策略确保稳定性。

- 上下文与处理能力限制:现阶段难以覆盖市场全量信息,单次输入长度有限,易错过关键信息。
  • 因子与复盘判断逻辑潜在的偏差风险:因逻辑表达与计算可能不匹配,个别超预期判断不足精准。

- 需高质量输入保障分析结果有效性:复盘模型依赖高质量研报等核心数据源,信息质量波动影响研判输出。
  • 风险提示明确,提醒用户理性应用LLM辅助工具,控制期望,避免盲目信赖,强调工程实践重要性[page::8,16]。


---

6. 批判性视角与细微差别


  • 报告高度强调LLM的创造力优势,但也坦承其结果随机性和逻辑瑕疵,客观审视模型当前成熟度及技术边界。

- 逻辑不匹配的因子和研判中的偶发瑕疵提示模型在因果理解和推理精度方面仍待加强。
  • 对prompt设计的探讨充分体现了因子创新与有效性间的权衡,但对于如何打破不同因子间相关性较高的问题,报告未提供更深入的策略。

- 复盘观点主要以正面信号居多,可能存在信息源本身选择偏差问题,长期评分倾向乐观可能不完全反映市场完整情绪。
  • 使用的多个回测样本集中在大市值高关注股票,模型效果在其他类型股票中的表现尚未展开,存在一定的行业和标的适用性限制。

- 报告未涉及LLM对非法或误导性信息的识别与处理,未来风险管控挑战仍大。

整体来看,报告介绍全面,分析细致,但仍需在模型解释性、安全性和多样性验证方面加强[page::10,11,16]。

---

7. 结论性综合



本报告以详实的研究方法和丰富数据支撑,系统论证了大语言模型(LLM)在个股投研中两大关键应用方向的潜力与实施路径:
  1. 基本面因子挖掘:基于精心设计的prompt引导,LLM能有效生成结构合理、投资逻辑清晰且创新性强的基本面量化因子,通过本地严密的因子计算和回测验证,IC_IR指标表现突出,部分因子创新能力甚至显著优于传统因子。该技术可推动投资者经验与深度理解向量化因子的高效转换,极大提高因子开发进程。
  2. 个股复盘体系:基于RAG增强的LLM技术,融汇部署公告、研报及调研等多源非结构化信息,实现关键信息提取与初步股价影响研判,显著节省人力复盘时间。实证表明其研判具有一定的逻辑自洽性和择时参考价值,尤其长期评分大幅提升信号能有效捕捉未来1个月左右的股价上行机会,并在多核心样本上验证择时策略收益提升和风险控制优势。
  3. 务实应用建议:针对LLM生成信息的随机性和深度局限,报告提出通过多次生成平均、特定股票prompt聚焦、优质研报输入等多重工程策略加以优化,确保技术应用稳健可靠。
  4. 风险提示到位:明确告知LLM工具的内在局限及风险,以防止盲目信赖或过度依赖生成内容,保障投资者理性使用。
  5. 未来展望:在现有技术条件下,LLM在个股投研里的应用场景已初步成型,但完整覆盖全市场和深度财务解析仍具挑战,期待后续算法、数据和模型输入优化突破,进一步扩展其量化投资影响力。


综上,报告以严谨的数据分析和案例验证,展示了LLM赋能个股投研的强大潜力与现实价值,同时不断提醒理性利用和风险控制,为行业投研工作流程数字化转型提供了技术先锋方案。[page::0-16]

---

参考图表(部分关键图表示例)


  • 图表1:LLM在个股投研中的优势与局限


  • 图表3:基于LLM因子挖掘框架流程


  • 图表4:不同Prompt设计下的因子生成效果


  • 图表8:个股复盘框架流程


  • 图表11:贵州茅台复盘综合评分分布


  • 图表13:基于长期综合评分变化的未来20日收益分组表现


  • 图表15:贵州茅台多头择时策略回测(示范)



---

综述:中金公司本报告立足于LLM技术的强大文本解析与推理能力,通过合理的应用设计和大量实证测试,初步实现了LLM在个股投研领域的创新应用,涵盖基础因子挖掘与信息复盘两大核心功能,不仅提升了投研效率,更通过有效码化分析与择时策略验证凸显其实际投资价值。与此同时,报告客观指出技术局限及风险,提供了务实改进方向,为行业应用和后续研究提供了清晰路线图和方法论参考。

报告