利用LLM一站式优化投研工作——从数据、文本到观点
创建于 更新于
摘要
本报告系统介绍大语言模型(LLM)在金融投研中的多场景应用,包括基于数值和文本的数据转换、自动生成投资分析文本、会议纪要智能总结及利用RAG技术构建私有知识库。报告详细展示了利用LLM自动化完成股票年化收益、波动率及最大回撤计算的示例(见Excel和Python代码)、基于文本提取数值信息、自动更新报告内容等实务案例。此外,介绍了LLM Agent的架构及在金融领域的多专家系统应用,结合文本情绪分析构造研报情绪指数,与朝阳永续超预期指数表现高度相关。最后提示LLM模型存在迭代风险和模型幻觉,需要结合客观数据谨慎参考。本报告为海通证券研究所发布,致力于推动投研自动化转型 [page::0][page::6][page::9][page::12][page::15][page::53][page::58][page::61]
速读内容
大语言模型(LLM)基础与分类 [page::2][page::3]
- 回顾语言模型发展,从统计模型到基于Transformer结构的BERT和GPT系列模型。
- LLM包含纯Encoder(BERT-style)、纯Decoder(GPT-style)与Encoder-Decoder三种架构。
LLM在数字计算中的应用示例——年化收益率、年化波动率及最大回撤计算 [page::6][page::8][page::9][page::10][page::11]

- 通过Excel公式和函数,借助LLM生成复杂计算步骤,实现股票指标自动化计算。

- Python示例代码实现Excel数据读取,计算年化收益率、年化波动率及最大回撤,结果写入新Sheet。

LLM优化文本生成及定期报告自动更新 [page::12][page::13][page::14]

- 利用Python自动更新Excel表格和基于数据的文本描述,提升撰写效率。
- LLM生成的红利指数现金分红比率定性分析,突出红利指数相较宽基指数更稳定高分红特征。

文本提取数值与研报情绪评分应用 [page::15][page::16][page::50][page::51][page::53]
- 自动从公告新闻提取逆回购操作规模等数据,结构化展示。
- 设计研报文本情绪分析提示词,对盈利增长、市场地位等维度评分,应用于中证超预期指数构建。

RAG技术与LLM结合构建金融知识库 [page::54][page::55][page::56]
- 结合检索与生成模型,缓解模型幻觉和时效性不足。
- 自动提取财经新闻、研报与公告核心内容,支持构建公开及私有知识库。

LLM Agent及DISC-FinLLM在金融场景的应用 [page::57][page::58][page::59]


- 引入Agent架构实现自感知、自规划及自主行动,多专家模块涵盖金融咨询、文本分析、计算和知识检索。
- DISC-FinLLM多模块协同,展现出在金融NLP、人类测试、资料分析和时事解读的卓越性能。

风险提示与合规声明 [page::61][page::62][page::63]
- 数据不完善可能导致结论不准确,LLM存在迭代风险与幻觉现象,结论仅供参考。
- 报告仅代表研究员独立观点,非投资建议,严格声明适用范围及版权限制。
深度阅读
利用LLM一站式优化投研工作——从数据、文本到观点
[郑雅斌,马毓婕,海通证券,2024年8月20日]详细分析报告
---
一、元数据与概览
报告名称:《利用LLM一站式优化投研工作——从数据、文本到观点》
作者:郑雅斌(金融工程首席分析师),马毓婕(联系人)
发布日期:2024年8月20日
发布机构:海通证券研究所
主题:介绍和分析大型语言模型(LLM)在金融投研工作中的应用,包括大语言模型基础知识、实际投研业务效率提升案例、风险提示及LLM的相关技术衍生概念(如RAG、Agent等)。
核心论点:报告重点阐述LLM如何助力金融投研工作流程,通过多种数据类型处理(数值、文本、音频、文件)实现一站式提升研究效率和深入见解。文中涵盖基本概念介绍、实际应用案例、技术工具和产品分析,揭示了LLM赋能投研工作的具体路径与实践示范,同时提出了伴随使用的风险控制建议。报告未明确提出投资评级或目标价,而是突出技术应用价值。[page::0,1,60]
---
二、章节深入解读
2.1 大语言模型基础介绍
- 大语言模型(LLM)的发展历程
起始于2018年Google与OpenAI推出BERT和GPT-1,标志预训练模型时代开启。
- 统计语言模型→词向量模型(Word2Vec)→ELMO→基于Transformer的BERT与GPT。
- 例如,统计语言模型用N-gram概率分布,受上下文长度限制;而神经网络语言模型和Transformer通过深度架构显著提升效果。
- Transformer结构的模型分类
- 纯Encoder型(BERT-style):双向编码器,用于判别任务,掩码语言模型训练。
- 纯Decoder型(GPT-style):自回归生成模型,按词序预测下一个词。
- Encoder-Decoder型(Seq2Seq):可用于翻译、摘要任务。
这部分为后续案例与模型应用提供了理论基础。[page::2,3]
---
2.2 LLM模型优化日常工作效率
此章节通过分类讨论LLM根据输入输出类型优化投资研究工作:
- 关键数据类型场景
1. 数值→数值(复杂计算,如股价收益、波动率等)
2. 数值→文本(财务报告自动更新)
3. 文本→数值(自动提取文本中的数值信息)
4. 文本→文本(文章摘要和观点提炼)
5. 音频→文本(会议纪要录音转写)
6. 文件→文本(快速阅读文档并提炼要点)
7. 文本生成(自动收集公开信息)
- 场景1详细分析:数值 to 数值
通过Excel及Python示例展示LLM如何辅助写出计算股票年化收益率、年化波动率、最大回撤的函数代码。
- Excel示例详述公式书写、对数收益率计算、回撤计算方法,并展示准确的函数引用(如INDIRECT函数用于动态范围)。
- Python代码示例涵盖函数设计思路,数据读取、排序、收益率计算、滚动最大值和回撤计算,及结果存入新sheet,方便集成自动化分析流程。
- 多个LLM工具(ChatGPT、Kimi、通义千问)示例代码展示,便于对比其表达层面和复杂度适配。
- 场景2、3、4简要介绍
- 数值到文本的报告自动更新示例,结合Excel图标和文本自动生成;
- 文本提取数值示例,自动识别文本中分布在新闻中的资金流数据,并用表格整理;
- 长文本提炼总结,如财经新闻、政策文件、基金经理观点,用简洁结构捕捉核心信息,明显提升阅读效率和信息筛选能力。
- 长文本总结示例中的基金经理观点精炼
基金经理蔡志文观点聚焦三大投资主线:上游资源品(铜、铝、油气)、制造业出口及供给侧优化,结合宏观经济和行业现状剖析投资逻辑。报告通过表格形式归纳其重点行业与对应逻辑,体现了模型对长文本多维信息的深刻整理与归纳能力。[page::5-27]
---
2.3 图表深度解读
- 表格一:语言模型发展历程
介绍了统计语言模型、神经网络语言模型到BERT/GPT的演进,突出技术和模型特色,体现语言模型性能和应用范围的扩展。数据说明了技术进步带来的结构变革。
- 表格二:Transformer模型分类
显示不同模型训练方式和功能差异,方便理解LLM架构的选择依据。
- Excel代码截图及函数公式展示(页8)
- 年化收益率计算公式
=(INDIRECT("B"&M1) / B2) ^ (252 / COUNT(A:A)) - 1
,利用INDIRECT实现动态范围引用。 - 对数收益率用
=LN(B3/B2)
后续计算日收益率标准差并年化。 - 最大回撤累计最大值计算
=MAX(B$2:B2)
,回撤率计算=(D2-B2)/D2
,最终最大回撤用=MAX(E2:INDIRECT("E"&M1))
。 这些公式精准应用金融统计学原理(如对数收益率优于简单收益率),强调数据处理细节。此图直观反映Excel实现复杂财务指标编制过程支持LLM技术在金融计算。
- Python代码截图展示(页9-11)
多个版本的代码通过Pandas实现数据读取、排序、收益率计算、最大回撤、结果写入新Sheet功能,较好说明如何将LLM生成的代码接入实际分析流程。代码同时反映了良好的软件工程实践,方便用户直接应用。
- 长文本结构化展示与摘要截图(17-27页等多页)
通过图表和分点形式体现新闻、政策、基金经理观点的抽象整理能力。基金经理观点被清晰拆解为宏观背景、国际局势、重点投资方向,由表格形式总结有条理。
- 研报文本推理指数走势图(第53页)
说明基于LLM文本推理实现的超预期指数与传统指数走势高度一致,验证了模型在量化金融分析中的实际价值。
- LLM Agent架构图(第57页)
清晰划分Profile、Memory、Planning、Action四大模块,展示Agent设计的逻辑架构。
- DISC-FinLLM任务分类和应用示例图(58-59页)
详述金融领域LLM如何整合计算、文本分析、时事分析和投资建议,展示模型切合中国市场场景优势。
- 知识库示意图(56页)
清晰区分公开信息知识库(研报、公告、新闻)与本地私用知识库(调研纪要、专家访谈、产业链信息),说明RAG技术实现金融数据多维融合。
总体,图表丰富直观,结合文本提供强支撑,说明LLM从基础理论到实践应用的全链条能力。[page::2,3,8-11,12-14,15-16,17-27,53,54,56-59]
---
2.4 估值分析
本报告的主体内容为LLM工具与方法的应用展示,无具体个股估值模型、目标价或类似量化结果。估值理论和模型工具如Black-Scholes期权定价、EDF预期违约概率等均在金融计算模块被提及作为示例,但报告中未包含对某标的的估值分析、参数设定或敏感性研究。[page::58]
---
2.5 风险因素评估
报告后段明确提示:
- 结论基于客观数据及内部计算,非投资建议,存在数据不完善带来的结论不精准风险。
- LLM模型本身存在迭代更新风险与模型幻觉(hallucination)问题,可能多次调用结果不一致,回答仅供参考。
- 报告强调本文内容系介绍大语言模型应用框架和路径,不代表投资立场。
风险提示体现了对LLM技术固有局限及投研应用风险的谨慎态度,提示用户需配合专业判断和严格风险管理。[page::61]
---
2.6 角色声明、合规与法律声明
文末的分析师声明由郑雅斌签发,明确独立性、客观性和数据来源公开性。涉及证监会认证编号及联系信息,增强信服力。法律声明详细规范了报告用途、版权保护及免责声明,明确不构成投资建议,合规要求完整详细,符合专业金融报告标准。[page::62, 63]
---
三、批判性视角与细微差别
- 报告清晰详尽介绍LLM技术及应用案例,但对模型潜在局限性仅较宽泛提示,缺乏在实际金融数据准确性校验、模型风险度量及对抗“幻觉”机制的深入阐释。
- 多个LLM应用案例中,代码示范多基于假设数据完整性,缺少处理异常数据与边界情况的讨论,后续工业级部署仍需完善。
- 报告示例覆盖较新技术和模型(如RAG、Agent),但技术演进速度极快,报告内容未来可能迅速过时,需持续更新。
- 报告未涉及人工智能系统对金融研究人员角色变化的影响探讨,亦未触及伦理、合规和数据安全相关风险。
- 对于场景示例的整体架构与方法总结丰富,但缺少具体绩效或效果对比数据,限制了实际应用效益的量化认知。
- 图表展示多为示例截图,少量源数据及模型训练细节未公开,审阅完整性依赖后续数据共享。
总体,报告作为技术路径演示极具参考价值,深度和细节尚存进步空间,需用户结合自身场景和专业经验审慎应用。[page::44, 61]
---
四、结论性综合
本报告系统全面地介绍了大型语言模型(LLM)及其衍生技术(如RAG、Agent)在金融投研工作中的实际应用,涵盖了从基础语言模型发展理念到具体编程实践、文本信息提取及观点生成、音频及文件内容自动转录和分析等多个维度。
主要贡献与见解包括:
- 基础介绍清晰,辅助读者理解LLM技术发展历程及核心模型结构,搭建了理论框架。
- 多场景示范充分体现了LLM对金融日常工作效率的提升潜力,尤其体现在投资组合指标计算(年化收益、波动率、最大回撤)的自动化、报告文本提炼与归纳、关键数值抽取、新闻及政策文件的快速总结、基金经理观点系统整理、多模态信息处理(音频转录)及资料甄别抽取。
- 图表与代码演示详细,从Excel函数到Python代码,层层递进,揭示金融数据处理的细节和自动化路径,反映了LLM在金融工程领域的实用操作能力。
- RAG模型的介绍及结合应用,展示了如何将庞大且时效不一的文本数据融合入知识库中,提升检索质量和生成准确性,解决了大模型时效性和知识闭环问题。
- Agent型自主应用架构,概览了未来金融智能体构建的多模块互联思路,实现自主感知、规划、执行闭环,展现了LLM未来投研自动化的趋势。
- 风险提示充分体现谨慎态度,强调LLM回答可靠性限制及可能产生的幻觉效应,明确本报告不构成投资建议,强化技术应用需结合专业判断。
- 分析师声明及合规保障正式,确保内容权威和合法合规,契合券商研究报告规范。
报告的图表与代码示范部分具体呈现了:
- 语言模型的发展演变表,突出BERT与GPT引领的预训练时代。
- Transformer模型类型与训练任务分类说明,助理解模型应用场景。
- Excel与Python代码截图演示股票年化收益率、波动率和最大回撤计算的完整流程,代码结构清晰,动态数据处理合理。
- 长文本新闻政策归纳提炼图,基金经理观点摘要与投资逻辑整理表,体现文本自动抽取与总结能力。
- LLM推理指数走势图说明文本情绪分析与股价预期的一致性。
- RAG知识库体系图,清晰定义公开数据与私有调研数据融合流程。
- LLM Agent架构模块图,定义Profile、Memory、Planning、Action四个核心模块功能。
- DISC-FinLLM多模组示意图,细分金融咨询、文本分析、计算和知识检索四个核心任务模块。
综上,报告提供完善、实操性强的LLM工具指导和应用案例,是金融投研领域理解及运用大型语言模型的有益参考。报告展现了AI技术在提升分析效率、增强数据洞察及辅助决策方面的巨大潜力,值得关注LLM技术发展的金融专业人士深入研读。
---
参考标注
[page::0,1,2,3,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63]
---
结束语
以上为《利用LLM一站式优化投研工作——从数据、文本到观点》报告的系统性深度解读,涵盖了报告中的技术底层、应用实践、图表数据解读、风险控制及合规等重要内容。欢迎针对具体章节或应用场景进一步咨询。