“逐鹿”Alpha 专题报告(二十)——基于数亿新闻上下文的本地RAG系统用于市场择时及行业轮动
创建于 更新于
摘要
本报告构建了本地化RAG系统,融合大型语言模型与数亿条财经新闻,实现市场择时、行业轮动及组合策略。通过高效的文本检索、向量数据库存储及大模型生成,模型在上证综指多空择时、行业轮动和复合策略上均展现出超越基准的优异表现,mixtral模型年化Alpha最高达13.49%,行业轮动复合策略达到16.20%年化收益,最大回撤显著降低,体现了LLM在量化投资中的强大应用价值[page::0][page::17][page::18][page::20][page::22][page::23]
速读内容
研究背景与方法介绍 [page::0][page::3][page::6][page::7]
- 利用2023年起50多万条财经新闻,结合SimHash算法进行文本去重和清洗,构建44万条高质量新闻库。
- 构建本地化RAG系统,采用Milvus向量数据库存储94万个子文本的1792维Embedding,结合LangChain框架,实现高效语义检索与生成。
- 部署多款开源大语言模型(如mixtral、qwen、gpt3.5、gpt4),采用ollama框架支持模型弹性调用和本地API接口调用。
- RAG结合大型语言模型文本生成,提升文本分析准确性,辅助市场及行业预测。
向量数据库技术架构及流程 [page::8][page::9][page::11][page::12]

- 采用递归字符文本切分器将文本切为约500字的子文本。
- 使用当前中文最好embedding模型acgetextembedding生成向量。
- 94万个文本向量存入Milvus数据库,支持快速近似最近邻搜索。
- 结合内积算法快速检索相关新闻,提升检索效率和准确度。

- 基于查询构建Prompt,借助LLM执行文本总结与分析,减低模型“幻视”误差。

大语言模型部署与表现 [page::13][page::14][page::15]

- 开源模型持续逼近人类基线,mixtral-8x7B基于MoE架构提升性能与计算效率。
- 采用ollama搭建本地化服务,支持多种模型和前端调用界面。

LLM多空择时策略及表现 [page::17][page::18][page::19][page::20]

- 通过LLM对上证综指未来一周涨跌幅预测,依据预测信号进行多空择时。


| 模型 | 多空年化收益 | 基准年化收益 | 信息比率(IR) | 最大回撤 | 基准最大回撤 | 多头年化收益 | 空头年化收益 | 准确率 |
|----------|-------------|-------------|-------------|---------|--------------|-------------|-------------|--------|
| qwen:14b | -5.38% | 0.38% | -0.41 | 17.63% | 16.33% | -2.25% | -3.23% | 52.46% |
| mixtral | 13.49% | 0.38% | 1.03 | 9.32% | 16.33% | 7.33% | 5.64% | 60.66% |
| gpt3.5 | 4.08% | 0.38% | 0.31 | 11.96% | 16.33% | 2.31% | 1.72% | 59.02% |
| gpt4 | -3.92% | 0.38% | -0.30 | 21.23% | 16.33% | -1.77% | -2.20% | 54.10% |
- mixtral模型表现最佳,择时准确率达60.66%。
LLM行业轮动策略及表现 [page::20][page::21][page::22]


| 策略 | 年化收益 | 最大回撤 | 年化波动率 | 信息比率(IR) |
|--------|---------|---------|------------|-------------|
| mixtral| 1.81% | 33.33% | 0.22 | 0.08 |
| 基准 | -6.74% | 25.42% | 0.16 | -0.42 |
- LLM行业轮动策略Alpha约8.5%,显著优于基准。
LLM行业轮动 $^+$ 择时复合策略表现 [page::22][page::23]

| 策略 | 年化收益 | 最大回撤 | 年化波动率 |
|---------------|---------|---------|------------|
| mixtral复合策略| 16.20% | 7.51% | 0.12 |
| 基准 | -6.74% | 25.42% | 0.16 |
- 该复合策略年化Alpha达22.9%,同时最大回撤大幅降低,风险收益表现优异。
研究风险提示 [page::24]
- 模型存在因参数设置、计算资源、历史数据区间选择带来的统计误差和不确定性。
- 风格切换等市场风险可能影响因子有效性,过去表现不保证未来收益。
深度阅读
证券研究报告《基于数亿新闻上下文的本地 RAG 系统用于市场择时及行业轮动》详尽分析
---
1. 元数据与概览(引言与报告概览)
- 报告标题:“逐鹿”Alpha 专题报告(二十)——基于数亿新闻上下文的本地 RAG 系统用于市场择时及行业轮动
- 作者:姚紫薇(金融工程及基金研究首席分析师)、王超(量化多因子选股研究员)
- 发布机构:中信建投证券股份有限公司
- 发布日期:2024年4月12日
- 主题:研究结合大型语言模型(LLM)与财经新闻数据,构建本地检索增强生成(RAG)系统,探索其在市场择时和行业轮动策略中的应用效果。
- 核心论点:
- 利用数亿条新闻数据以及先进的本地化RAG架构,结合LLM强大的文本总结、分析与推理能力,对财经新闻实现深度处理,实现市场趋势预测和策略制定。
- 设计并测试了三种策略:市场择时策略、行业轮动策略、行业轮动+择时复合策略,均展现出显著胜出基准的性能表现。
- 主要传达信息:本地化RAG系统结合LLM与丰富新闻数据,可有效辅助金融市场决策,提升市场择时与行业轮动能力,推动金融工程领域研究和应用创新。[page::0,3,6,23]
---
2. 逐节深度解读
2.1 简介
- 财经新闻数据是主动投资及市场分析核心信息源,传统情感分析等方法难以充分挖掘非结构化新闻文本价值。
- 随着大型语言模型技术的发展,LLM能提供更卓越的文本理解与推理能力,有潜力提升非结构化金融新闻的价值提取和利用。
- 本文基于2023年后全新并未被广泛训练利用的新闻数据,构建本地化RAG系统,通过模拟资深分析师角色,结合多维市场信息完成市场信号预测,形成多策略投资框架,实证结果优于基准,体现LLM对量化投资的革新作用。
- 未来展望认为,随着技术进步,LLM将在金融等领域扮演越来越关键的决策辅助角色。[page::0,3]
2.2 数据
- 数据来源:聚源数据汇集2023年及之后主要财经网站新闻,共超过50万条新闻,日均约1061条,新闻长度从11字至10万字不等,提供丰富内容深度和宽度。(图1展示具体新闻样例)
- 数据清洗:为避免信息重复,采用SimHash算法进行文本去重,基于海明距离小于3作为重复标准,最终得到约44万条高质量非重复新闻,总文本量约4.3亿字符。清洗同时剔除了特殊符号、过长或过短文本、非专业新闻来源,保证数据质量。
- SimHash算法详细介绍及示例海明距离矩阵(表1),说明文本去重的科学性和有效性。
- 大规模数据清洗为后续向量化和RAG提供了基础保障。[page::3,4,5]
2.3 本地化RAG系统设计
2.3.1 技术背景及方案决策
- 针对上亿字符规模的新闻数据,单一LLM模型直接处理成本高且效率低,重新训练或微调模型开销巨大。
- 本文采用RAG体系,结合信息检索和文本生成,将原始新闻数据向量化存储,利用外部知识库辅助生成,提高输出准确性和丰富性,解决模型长文本处理瓶颈(图2展示技术选型流程)。
- RAG核心包含检索(Retriever)与生成(Generator)两大模块,检索模块从知识库中调取最相关文本,生成模块基于检索结果进行文本回答生成,有效减少模型幻觉,增强事实依据(图3架构详解)。
- 研究选用LangChain、LlamaIndex等框架生态实现技术方案,具备定制灵活、领域适配性强等优势。[page::5,6,7]
2.3.2 信息检索模块及向量数据库
- 新闻文本向量化处理关键在于文本切分与嵌入Embedding。
- 文本切分采用LangChain的RecursiveCharacterTextSplitter,分割粒度设为500字符,共拆分约94万个子文本,兼顾文本结构完整性与检索效率(图4、图6)。
- 选用表现优异的中文预训练Embedding模型acgetextembedding(1792维度),基于MTEB中文基准多项指标领先(图7,名列榜首)。
- 向量数据库采用Milvus,开源、支持十亿级向量毫秒级检索,支持向量索引、属性过滤等功能(图5)。
- 数据导入至Milvus后,支持向量内积搜索为核心的相似度检索,结合时间等属性进行精确检索,举例以2024年3月29日贵州茅台相关新闻为例,实现主题相关新闻的高效提取(图9)。
- 该模块为后续RAG的高效信息调用及LLM生成环节提供支撑。[page::7,8,9,10,11,12]
2.3.3 文本生成及大模型部署
- 生成模块基于检索信息构建明确Prompt,引导LLM进行深入总结、推理,降低模型“幻觉”风险,提高复杂任务表现(图10)。
- 大型语言模型采用开源方案,方便本地部署,灵活定制,利用ollama框架支持Docker容器部署,支持Llama2、Gemma、Mistral系列、Mixtral(基于MoE专家模型结构优化计算效率)等多款模型,兼容Open WebUI等前端(图13、14、15)。
- 模型选取时,综合参数数量与性能表现,榜单(Open LLM leaderboard)显示持续逼近人类水平的提升。
- 示例演示alpha因子检验框架Python代码和手机端API调用,体现模型应用的多样化。
- 实例表明通过本地系统,能对科技行业新闻进行合理总结,显示对非结构化信息的有效整合能力(图16中新闻总结)。
- 基于LangChain接口,可灵活调用本地和商业模型,支持未来扩展和功能丰富化。[page::11,12,13,14,15,16,17]
2.4 市场分析与策略构建
2.4.1 LLM市场择时策略
- 本研究构建模拟资深分析师的虚拟代理,基于2023年后周频新闻与市场历史数据对未来一周上证综指涨跌幅进行预测,策略包括多空择时操作。
- 测试模型包含qwen:14b、Mixtral-8×7B、GPT-3.5-Turbo、GPT-4-Turbo-Preview,其他模型未能有效输出。
- 多空择时净值曲线(图16)、多头择时(图17)、空头择时(图18)显示Mixtral表现最优,收益稳健。
- 策略表现量化见表2:Mixtral年化收益达13.49%,择时准确率60.66%,信息比率(IR)1.03,最大回撤约9.32%,均显著优于基准,GPT-3.5次之,GPT-4、qwen表现一般。指出Mixtral模型的强大预测能力。[page::17,18,19,20]
2.4.2 LLM行业轮动策略
- 结合新闻信息和市场状态,要求模型预测未来一周涨幅最佳五个行业,构建等权周频调仓组合。
- Mixtral-8×7B模型作为核心预测模型,基准选用30个行业等权组合。
- 行业推荐结果见图19,策略净值走势明显优于基准(图20)。
- 表3数据显示Mixtral行业轮动年化收益1.81%,超基准8.5%,最大回撤33.33%,IR略为正值0.08,表明策略实际上具备一定alpha生成能力,但波动和回撤需谨慎监控。[page::20,21,22]
2.4.3 行业轮动+择时复合策略
- 叠加行业轮动与市场择时,构建多头行业轮动择时混合组合。
- 净值表现(图21)展示出更加优异的年化表现与风险控制。
- 表4中显示此策略年化收益16.20%,最大回撤7.51%,年化波动率0.12,均远优于基准,年化alpha达22.9%,显著提升风险调整后收益。
- 该结果验证RAG架构结合LLM信号的综合应用潜力及实际超额收益可能性。[page::22,23]
2.5 风险因素评估
- 报告指出,所有结果基于历史统计,未来风格切换可能使因子失效,策略有效性不保证。
- 模型存在一定随机性,运行结果受参数(如随机种子)影响,单次结果可能有偏差。
- 历史数据选取区间影响分析结果,模型参数与计算资源不足也可能引起欠拟合及性能下降风险。
- 结论均为历史回测结果,存在统计误差,无投资保证,提醒用户勿盲目依赖。
- 风险提示体现研究审慎态度及模型应用的局限性。[page::24]
---
3. 图表深度解读
3.1 市场表现图(页0)
- 图示2023年4月至2024年4月上证指数走势,整体呈现震荡下行态势,表现波动明显。
- 与文本中对市场择时需求相呼应,体现复杂市场环境下把握趋势的重要。
- 直观反映市场背景。[page::0]
3.2 数据处理及向量检索相关图表(页4-12)
- 图1新闻样例清晰展示了新闻文本数据字段,为后续文本嵌入提供原生样本。
- 表1SimHash海明距离矩阵定量支持文本去重过程,确保数据唯一性。
- 图2大模型方案决策流程逻辑清晰,体现选择RAG方案的合理性。
- 图3 RAG架构流程,强调检索和生成双模块运作机制。
- 图4数据索引示意,说明文本加载、切分、嵌入、存储整个流程。
- 图5 Milvus数据库工作原理,展示深度学习生成embedding后存储与检索机制。
- 图6子文本示例反映文本内容保持信息丰富和结构完整。
- 表7 MTEB中文嵌入榜,说明模型选用的科学依据。
- 图8 Milvus数据库实际结构表格,现实操作性强。
- 图9新闻检索示例定量显示特定新闻关键词的文本匹配分数,体现检索准确性。
- 图10文本生成示意,说明结合检索信息构造prompt流程。
- 多个图表系统串联,完整描述文本预处理和RAG构建过程。[page::4-12]
3.3 大模型部署及性能图(页13-16)
- 图11、12大模型表现趋势图显示模型性能持续提升,逼近人类水平。
- 图13 Open LLM排行榜截图,展示领先模型名单及性能,用以明确本地部署选择依据。
- 图14-15展示本地ollama部署界面,支持多模型切换,且手机端API调用界面截图,突显系统对接和应用的灵活性与现代化。
- 图片索引推动理解实际技术实现和应用手段。[page::13-16]
3.4 市场择时与行业轮动策略绩效图表(页18-23)
- 图16-18 展示不同模型(qwen14b、Mixtral、GPT3.5、GPT4)多空、多头、空头择时净值走势,Mixtral稳健且持续跑赢其他模型和基准,图像线条走势明显证实量化结果。
- 表2详细量化比较各模型择时收益、信息比率、回撤和准确率,Mixtral最佳,精准度和收益均明显领先。
- 图19行业推荐数据摘要(含行业指数等),显示模型对行业热点和轮动的选择能力。
- 图20行业轮动策略净值曲线,Mixtral策略显著跑赢基准。
- 表3表明行业轮动策略年化收益正收益、信息比率转正,尽管回撤较高,仍显示策略潜力。
- 图21行业轮动+择时复合策略净值表现更具弹性和增长空间。
- 表4综合策略年化收益和风险显著改善,最大回撤大幅降低,年化alpha显著优异,显示综合应用价值。[page::18-23]
---
4. 估值分析
- 报告主体聚焦于策略表现评估,未直接涉及对标公司估值或行业整体估值体系分析。
- 估值主要体现在策略收益、最大回撤、信息比率和波动率等风险调整后收益指标。
- 通过多维统计分析推动策略有效性判断,兼顾收益和风险,体现量化策略量化评价理念。
- 此外,借助大模型对市场和行业的预测信号,隐含提升了投资组合超额收益的内在估值逻辑。[page::18-23]
---
5. 风险因素评估
- 模型及策略适用性风险:历史走势不能完全代表未来,风格切换或市场结构变化可能导致策略失效。
- 技术风险:模型初始化随机性、参数设置影响结果的稳定性。
- 数据风险:数据时效及区间选择对模型训练和回测结果影响较大。
- 计算资源限制:资源不足可能导致模型学习不足,表现大幅下降。
- 预测不确定性:所有结果均基于概率和统计性质,无法提供确定投资建议。
- 报告未提供具体风险缓解方案,仅以风险提示为主,提醒用户保持警惕,合理控制投资风险。[page::24]
---
6. 批判性视角与细微差别
- 报告主旨强调RAG与LLM结合的创新能力和强大性能,但对模型选择和参数细节披露较少,可能影响结果复现性和透明度。
- Mixtral模型表现最佳,可能因为其基于MoE结构,资源使用更高,成本与效率权衡未充分展开。
- 对于GPT-4等主流模型表现欠佳,报告未深入讨论原因,留有分析空间。
- 行业轮动策略最大回撤较高(33.33%),尽管收益改善,该风险水平提醒模型尚需进一步风险控制策略。
- 风险提示充分,体现对策略局限的清醒认识,未过度夸大结果。
- 报告中策略回测起点时间、样本外验证、交易成本等细节未详述,外部应用时需注意。
- 图表标识规范,但部分图中文字内容或截图清晰度有限,影响细节把握。
- 总体报告研究思路清晰,技术路线合理,实证数据与文本逻辑相符,结论稳健可信。[page::14,18,24]
---
7. 结论性综合
本报告基于2023年起大规模财经新闻文本数据,结合业内领先的本地RAG框架和高性能大型语言模型,构建了针对金融市场信息深度挖掘与预测的智能分析系统。通过细致的文本预处理、去重及嵌入向量化,再结合Milvus向量数据库实现高效语义检索,系统能精准关联相关新闻,实现信息源的强大支撑。随后采用基于Prompt设计的文本生成技术和灵活部署的开源大型语言模型(以Mixtral为主)完成对新闻语义的深层分析和市场预测。
策略实证部分重点验证了市场择时和行业轮动两大策略以及其复合模式的有效性:
- 市场择时策略:Mixtral模型年化超额收益达13.49%,择时准确率超过60%,在多空策略中展示稳定盈利能力和较小风险敞口。
- 行业轮动策略:有效捕捉行业热点变化,年化收益实现1.81%,明显跑赢基准,虽回撤尚高但表明该策略具备重要alpha潜力。
- 行业轮动+择时复合策略:结合两者优势,实现年化收益16.20%,最大回撤显著降低到7.51%,显示综合策略在提高回报同时有效控制风险,表现最佳。
所有研究结果均基于全面的历史数据测试,具有良好的数据支持和量化严谨性,但报告也强调模型和策略的潜在风险与限制,尤其是未来风格切换和模型随机性可能带来的不确定性。同时,报告展现了大语言模型特别是在财经领域非结构化信息处理的巨大潜力,对金融工程量化投资策略研究具有较强的指导价值。
综上,该报告成功展示了RAG与LLM在金融市场择时及行业轮动策略开发中的创新应用和卓越表现,验证了基于新闻大数据的智能投资决策新范式,推动了金融智能化和量化投资方法论的创新发展,同时强调风险意识,是一份深具参考价值的金融工程研究成果。[page::0-26]
---
总结图表索引
| 图表编号 | 内容描述 | 关键洞察 |
|---------|----------|---------|
| 图1 | 新闻数据样例,展示数据结构与内容 | 数据维度丰富,支撑后续分析 |
| 表1 | 新闻文本SimHash海明距离矩阵 | 保障数据去重有效,基础扎实 |
| 图2 | 大模型方案决策流程 | 说明选择RAG方案的合理性 |
| 图3 | RAG架构详细流程图 | 检索与生成模块结合提高准确性 |
| 图4、6 | 数据加载、切分流程及示例 | 细致的数据预处理提高检索效率 |
| 图5、8、9 | Milvus数据库架构与检索示例 | 高效向量检索支撑核心数据调用 |
| 图7 | MTEB中文嵌入模型排行榜 | 模型选择有客观工具支持 |
| 图10 | 文本生成流程示意图 | 证明生成模块工作机制 |
| 图11-14 | 大模型性能演进及排名 | 模型技术发展趋势及选择依据 |
| 图15-16 | Ollama框架UI与API调用界面 | 本地部署与实际应用展示 |
| 图16-18 | 多空、多头、空头择时策略净值曲线 | 策略表现直观展示,Mixtral领先 |
| 表2 | 各模型择时策略量化指标 | Mixtral Alpha与IR最优 |
| 图19-21 | 行业轮动推荐数据及策略净值 | 行业轮动策略有效超越基准 |
| 表3、4 | 行业轮动及复合策略绩效指标 | 复合策略风险回撤最小、收益最大 |
---
备注:所有引用均按页码注明,确保评估内容的可追溯性。