`

大模型赋能投研之九 :如何结合结构化数据搭建本地智能投研系统?-RAGFlow应用篇

创建于 更新于

摘要

本报告深入介绍RAGFlow本地智能投研系统的完整部署和应用流程,重点展示了基于该系统对结构化数据(如财报三大表、股票日行情等)与文本数据的融合检索与问答能力。结合Text to SQL增强、大模型辅助解析等技术,实现多维度、多信息源的智能投研Agent构建,显著提升了金融机构对大量异构信息的实时响应与分析效率[page::1][page::2][page::14][page::18][page::21][page::22]。

速读内容


RAGFlow系统部署及配置要求 [page::3][page::4]

  • 运行环境依赖Linux系统的Docker容器,建议CPU≥8核,内存≥32GB,磁盘≥50GB。

- 关键软件版本需求Docker 24.0.0及以上,Docker Compose v2.26.1及以上。
  • 部署包括克隆代码、启动服务器、版本更新等步骤,硬件资源配置与虚拟内存开启较大影响性能。


RAGFlow核心工作流程详解 [page::4][page::5][page::6][page::7]

  • 使用流程包含系统模型配置、文档入库、检索配置、聊天问答四大阶段。

- 文档入库支持多种文档解析方式,采用DeepDoc解析器高质量识别文本及结构化表格,特别支持Table解析对接财报表格数据。
  • 文档入库支持参数调节、Raptor召回增强与知识图谱策略提升检索质量,支持元数据设置提高问答命中率。




检索配置及聊天助手设置 [page::9][page::10][page::11]

  • 聊天助手需配置显示原文、关键词分析、知识库关联等参数,提示引擎涉及相似度阈值、关键字权重、Top N文本块限制、多轮对话优化及知识图谱推理配置。

- 大模型建议选用低温度、精确模式,降低生成内容的随机性,提升问答质量。



Python API支持及存在的功能限制 [page::12][page::13]

  • Python SDK支持知识库管理、文件上传解析、聊天助手及会话管理等功能。

- 当前版本(v0.17.2)存在多项API缺陷,如不能开启Raptor召回增强、知识图谱及Deep Research推理,需结合前端界面操作。

基于RAGFlow的Text to SQL工作流及增强机制 [page::14][page::15][page::16][page::17]

  • Text to SQL将自然语言问题转化为SQL语句,RAGFlow通过知识库(DDL信息、DB描述、问答示例库)辅助大模型,显著提升SQL生成准确度。

- 三类知识库构建方法详解:DDL存储表结构,Q->SQL存储问题与SQL样例对应,DB Description存储字段说明。



结构化数据的信息检索工作流设计及实现 [page::18][page::19][page::20]

  • 基于RAGFlow预定义组件,构建并行查询三大财报表和股票日行情的多路径工作流。

- 设计4个二分类器精确判定用户问题目标,实现对复杂问题的精准分类与流程路径拦截。
  • 使用生成组件对问题重构,提升针对性检索质量。

- 通过实际问题测试,针对性、多目标问题工作流合理有效运行。

多信息源融合Agent的构建与应用实践 [page::21][page::22]

  • 在结构化数据获取基础上,整合研报数据库、新闻信息,利用内置组件(问财、AkShare等)完成多维度金融信息融合。

- 多信息源融合Agent通过大模型智能判断提问意图,选择合适知识库并整合输出,支持复杂问答场景。



深度阅读

研究报告详尽深度分析报告



---

一、元数据与报告概览


  • 报告标题:《大模型赋能投研之九 :如何结合结构化数据搭建本地智能投研系统?-RAGFlow应用篇》

- 作者:高智威、许坤圣
  • 发布机构:国金证券股份有限公司

- 发布日期:2025年5月6日
  • 主题:本报告聚焦于使用开源RAG架构RAGFlow,结合结构化数据构建本地智能投研系统的应用实践。

- 核心信息概括
- 该报告是继《原理篇》之后的应用篇,旨在系统化说明RAGFlow的部署、使用、应用以及基于其的多模态智能投研实例。
- 重心在于如何用高质量的结构化数据(尤其是财务报表、行情数据等)与文本数据结合,利用RAGFlow实现多信息源融合,提升智能投研系统的效能。
- 并给出详细的部署需求、配置方法、API应用流程及示范工作流设计。
- 最终输出一套多信息源融合Agent,满足金融机构在文本与结构化信息并存环境下的智能投研需求,助力实现投资决策自动化与智能化。

该报告属于技术研发与投研系统建设领域,旨在帮助金融机构引入先进技术,提升数据驱动的投研分析能力。[page::0,1,2,22,23,25]

---

二、逐节深度解读



2.1 知识库与RAGFlow介绍(章节1)


  • 关键论点

- 金融机构面临文本与结构化数据并存环境,亟需大模型辅助处理多维信息。
- RAG(Retrieval-Augmented Generation)作为“知识库+大模型”方案,能有效解决大模型知识滞后、幻觉等问题。
- 众多RAG开源架构中,RAGFlow以其高质量文本解析(DeepDoc)、多路关键词与向量混合检索、结构化数据兼容(Table解析)、灵活Agent框架为核心优势,被选用于本地智能投研系统建设。
  • 推理依据与信息

- 解析能力:自研DeepDoc实现精准文本版面分析与合理分块。
- 检索能力:关键词加向量检索的双路策略,应用Raptor聚类增强以及知识图谱,提升召回质量。
- 兼容性:支持结构化表格数据的导入与解析,适用于财务报表、行情等典型金融表格。
- 使用便捷:提供基于知识库的自定义Agent搭建框架,支持多模态融合,实现复杂工作流自动化。

此处深刻揭示RAGFlow区别于其他架构的核心竞争力,特别强调“Quality in, Quality out”的高质量解析检索能力,对金融行业的适用性和价值,[page::1,2,3]。

---

2.2 RAGFlow部署要求与方法(章节2)


  • 关键论点与数据

- RAGFlow依赖Linux环境,基于Docker容器部署;Windows用户需先设置Linux环境。
- 硬件要求较高:CPU至少4核(推荐8核),内存至少16GB(推荐32GB),磁盘至少50GB。
- 软件版本要求:Docker版本≥24.0.0,Docker Compose版本≥v2.26.1,且操作系统需支持vm.maxmapcount ≥ 262144。
- 推荐开启虚拟内存缓解内存不足问题。
  • 部署具体步骤

- 初始部署包括克隆GitHub仓库、启动服务器、确认服务状态。
- 升级流程涵盖切换版本、配置更新、拉取镜像、重启服务。
- 如遇任务程序异常,重启服务为常用解决方案。

精准配置确保系统稳定运行,充分说明了实际操作复杂性和对硬件软件环境的严格依赖,[page::3,4]。

---

2.3 RAGFlow入库与检索流程(章节3)



2.3.1 总体流程


  • 使用流程分为系统设置、文档入库、检索配置、检索回答四大阶段,流程清晰,有步骤导引用户完成配置与使用。


2.3.2 模型与系统配置


  • 三大模型配置:

- 聊天模型:基于知识库进行答案生成的主模型。
- 嵌入模型:将文本块及问题向量化,为检索提供基础。
- 重排序模型:对初步召回文本块进行评分,保证输送给大模型的内容相关性高。
  • RAGFlow支持多家模型提供商,既支持API方式,也兼容本地模型部署,如DeepSeek模型示范。

- 必须优先设置聊天模型和嵌入模型,推荐配置重排序模型提高准确率。

2.3.3 文档入库设置


  • 文档解析配置重点为:

- 选择解析器(DeepDoc)
- 选择嵌入模型(推荐avr/sfr-embedding-mistral)
- 选择切片方式(General针对研究报告)
- 设置Token数限制(512为较好配置)
- 设置段落分割标识符(清晰区分不同文本块)
  • 对结构化数据支持:

- Table解析方式:
- 支持XLSX、CSV、TXT(Tab分隔,首行为列标题)文件格式。
- 按行处理,保留列名和值对应关系,改变传统非结构化对表格的限制。
- 文本块中清晰包含数值及描述。
  • 增强策略:

- Raptor召回增强:递归聚类文本块,结合LLM生成摘要,提高信息召回准确率。
- 知识图谱策略:通过实体和关系抽取,支持多跳推理,缓解语义鸿沟,提升多跳场景检索。
  • 文档管理:

- 上传文件支持批量,但批量上传后需手动启动解析。
- 支持设置文档元数据(JSON格式),强化检索上下文,提升回答精准度。

2.3.4 检索配置设置


  • 聊天助手创建涉及:

- 助理设置:显示引文、关键词分析、文本转语音等参数,建议启用显示原文出处与关键词分析。
- 提示引擎配置:核心模块,参数涉及相似度阈值(建议0.2)、关键字相似度权重(约0.3)、返回Top N文本块(约6-8)、多轮对话优化(建议开启)、知识图谱(建议开启)、推理(不推荐开启)等。
- 模型设置:选择chat模型,推荐不带推理的,可缩短响应时间,模型自由度推荐精确模式,温度、Top P、存在惩罚、频率惩罚四个参数微调确保生成文本质量。
  • 聊天助手可创建无限对话,新建对话后可输入问题,回答中会自动显示知识出处,方便追溯和验证。


此章节详细阐述RAGFlow各环节关键配置及操作界面,配置合理性与参数选择为实现高质量检索回答的核心所在,[page::4-11]。

---

2.4 RAGFlow自动化及Python API应用(章节4)


  • API分为两大部分:

- 文档解析入库管理:知识库、文件上传、解析流程管理、文本块管理,如创建知识库、上传文件、开始解析等。
- 知识检索输出管理:聊天助手管理、会话管理、对话管理,如聊天助手创建、会话创建、问答交互。
  • 尽管API功能覆盖面广,但存在一定缺陷(v0.17.2版本):

- 文档解析固定使用DeepDoc,不支持修改。
- 无法通过API开启Raptor召回增强和知识图谱策略。
- 聊天助手设置时,API无法启用Deep Research推理。
- 默认英文提示词,需手动替换为中文。
  • API使用需先安装SDK(pip install ragflow-sdk),并在Web端申请API KEY。

- API调用方法均清晰列示,方便批量管理知识库与问答任务。

强调Python API能提高批量操作效率,但当前版本仍在完善,使用时需注意相关限制,[page::12,13]。

---

2.5 RAGFlow项目实战应用(章节5)



2.5.1 Agent工作流需求与应用


  • 金融机构信息繁杂(财务报表、行情数据、研究报告、新闻等),需求多样。

- RAGFlow提供了丰富的Agent模板(通用聊天、WebSearch、Text to SQL、DB Assistant、智能投资顾问等)。
  • 针对不同信息类型分别设计特定解决方案:

- 数据类信息通过Table解析(财务报表)和Text2SQL(行情)结合知识检索。
- 文本类信息批量入库或实时SQL查询。
- 新闻类信息通过内嵌模块获取实时资讯。
  • 目标是实现多信息源融合Agent,打通结构化与非结构化数据使用路径,提高投研智能化水平。


2.5.2 Text to SQL工作流


  • 基础流程:用户提供自然语言查询与数据库DDL,生成SQL执行查询。

- 缺陷:DDL需用户自行输入,且仅DDL信息难以确保SQL质量。
  • RAGFlow增强

- 自动提取DDL信息构建DDL知识库。
- 增加DB Description知识库,为表字段及属性提供详细描述。
- 增加Q->SQL知识库,提供自然语言问答与SQL查询的示例样本,供模型学习示范。
- 通过三类知识库辅助,自动生成更准确的SQL。
  • 入库示例详尽说明三种知识库如何制作与配置。

- 流程图与使用示例展示工作流程与最终生成SQL示范,验证流程有效性。

2.5.3 数据类信息获取工作流


  • 设计用于从财务三大报表和股票日行情中自动提取相关信息。

- 流程包含:
- 利润表、资产负债表、现金流量表分别构建知识库,利用文本块与大模型查询。
- 股票日行情通过Text to SQL查询数据库。
  • 引入预定义组件实现高度自动化。

- 采用“分类组件”实现问题分类,判断查询是否覆盖目标知识库,过滤无关查询,降低噪声。
  • 采用“生成组件”对用户查询进行针对性改写,提升匹配质量和召回效果。

- 演示数据问题针对性验证和多目标查询验证,均显示良好效果,且实际查询路径透明易追溯。

2.5.4 多信息源融合Agent


  • 在数据类信息基础上拓展研报数据库与多渠道新闻获取。

- 利用预定义连接百度、DeepL、ExeSQL、问财、AkShare等组件,丰富信息源。
  • 多信息流汇聚到“整理输出”节点,生成统一回答。

- 案例分别展示:
- 简单查询某月份研报,系统选定正确分支返回答案。
- 复杂查询季度营业收入与资产负债情况,多源数据汇总且内容详实。
  • 验证整个多模态、多信息源模式的有效运转与良好效果。


本章节涵盖从单一数据查询到多源信息融合的全链路演示,充分展示RAGFlow的实践价值及落地可行性。[page::14-22]

---

三、图表深度解读(含示例)


  • 图表1(常见RAG解决方案对比):对比了RAGFlow、Dify、FastGPT三大开源架构,从文档处理、检索、模型支持和向量数据库四方面拆解,突出RAGFlow在深度文档解析、结构化数据兼容和高质量检索多模态知识支持上的优势。[page::2]
  • 图表3(RAGFlow硬件环境配置需求):标准硬件需求(CPU≥4核,内存≥16GB,磁盘≥50GB)与推荐配置(CPU≥8核,内存≥32GB),再结合Linux和Docker版本限定详尽反映出部署难度及资源需求,[page::4]
  • 图表5(RAGFlow使用流程图):流程图清晰展示系统建立->文档入库->检索配置->检索问答的四阶段流程,形象化指导实际应用部署,[page::4]
  • 图表6(模型接口选项示意):包含开源与闭源多家模型提供商LOGO,显示接入模型丰富性及灵活性,图中DeepSeek界面示意突出具体API密钥输入,[page::5]
  • 图表8、9(文档入库界面及解析参数):展示知识库创建入口和解析配置面板,突出重分块方式、嵌入模型、参数细节配置,全景式说明操作细节,[page::6]
  • 图表11(Table形式解析示例):展示结构化表格数据导入后变成按行分块文本形式,确保保留结构信息的重要设计,[page::7]
  • 图表15、16(文件上传与元数据设置):清晰示范多文件上传、手动触发解析及元数据JSON配置接入,提高检索上下文,增强问答精确度,[page::8,9]
  • 图表17-22(聊天助手配置与实战问答):配置参数(相似度阈值、关键字权重、TopN、提示词等)及模型自由度细节讲解,配合对话创建界面以及问答展示,体现整体应用闭环及可控性,[page::9-11]
  • 图表24-27(Python API功能与使用示意):两大类API功能全覆盖,讲解模板与调用接口,指明目前API短板与改进场景,[page::12-13]
  • 图表29-34(Text to SQL工作流与知识库示例):基础与增强流程示意比较,DDL、Q->SQL、DB Description三种知识库的构造示意与入库页面展示,配合SQL生成问答截图,凸显系统智能交互能力,[page::15-17]
  • 图表35-46(结构化数据获取工作流设计与多信息融合Agent):多层工作流组件图清楚描绘利润表、现金流、资产负债、多数据库查询等复杂任务;分类器应用屏蔽无关查询路径;生成组件实现问题定向优化;各步骤评测案例和整个多信息融合Agent节点拼接示意,附带真实问答展示,清晰说明操作效果及数据覆盖度。[page::17-22]
  • 图表43(预定义组件作用和使用方式表):详细列示各组件作用及应用,帮助用户快速搭建业务场景,易用性突出,[page::21]
  • 图表44(多信息源融合Agent宏观结构图):全景式多节点流图,展示多模态、多数据库及网络信息整合机制,复杂程度高但系统化明确,[page::21]


这些图表辅佐文字内容,提供直观、可操作的指导,充分支持报告结论及实践路径设计。

---

四、估值分析



本报告为技术应用与系统架构实践报告,无单独估值分析部分,无涉及财务指标、市场估值或目标价等内容。故此章节不适用。

---

五、风险因素评估


  • 版本迭代风险:本研究基于RAGFlow v0.17.2版本,后续版本或含功能变更,用户需关注版本更新及兼容性。

- 模型配置差异风险:不同模型选型及参数配置对知识库效果影响显著,可能导致检索质量及输出准确性波动。
  • 大模型本身局限风险:模型输出存在不确定性及波动,可能产生幻觉或错漏,需结合上下文与人工校验。

- 参数依赖风险:推荐的参数和工作流示例基于特定任务和数据集,实际应用中须根据具体业务需求调整优化。
  • API功能不足风险:现有Python API功能尚不完善,用户在批量或自动化场景中可能受限。


报告提醒用户审慎评估功能稳定性及效果差异,积极关注升级及配置调优以规避风险。[page::1,22,23]

---

六、批判性视角与细微差别


  • 潜在的偏颇

- 报告高度正面评价RAGFlow架构,少有针对其缺陷的深入分析,或有方案过于理想化的倾向。
  • 假设与局限性

- 诸多关键参数建议基于作者自行测试,无大规模实盘验证数据披露。
- Python API使用中的功能缺陷提示不足,自动化应用受限。
  • 细节不够清晰处

- 多数流程与组件介绍详实,但具体模型选择对不同金融场景的适用性讨论较少。
- 对大模型潜在输出质量波动及高并发响应性能的处理缺少部署实战说明。

整体看,报告力求全面且技术深度较高,但略显理想,实际应用应结合场景深入测试验证,注意软件版本及硬件环境制约。

---

七、总结性综合



本报告系统详尽地介绍了结合结构化数据搭建的本地智能投研系统的实践——基于开源RAGFlow框架。本报告首先强化了RAGFlow在金融行业应用的核心优势:深度文档解析(DeepDoc)、双路检索(关键词+向量)、Raptor聚类召回增强、知识图谱支持、多模态结构化数据兼容能力和灵活Agent工作流。

报告详细阐述了RAGFlow的部署要求(硬件要求CPU≥4核、内存≥16GB推荐32GB,需Linux+Docker)、完整配置流程(系统参数、文档入库、检索配置及对话问答设置)、以及Python API的使用现状与不足。对每个流程细节及图形界面给出清晰示范,辅以参数解析和示范案例。

应用层面,报告创新性地设计并实现了:
  • 知识库增强Text to SQL工作流:引入DDL、Q->SQL、DB Description三个知识库辅助,极大提升SQL生成准确性。
  • 结构化数据信息获取工作流:对企业财务三大报表和股票日行情分别采用文本块知识库检索与SQL查询相结合,利用分类器过滤无关数据,生成模块改写问题,提高检索相关度。
  • 多信息源融合Agent:结合研报库、互联网新闻与财务数据,实现从海量多源全方位智能投研查询,实例测试验证了对简单查询和复杂业务问题的有效响应。


报告通过多组详实的图表清晰揭示了系统架构及流程设计,实际查询例子也展示了较强的业务适配能力。它不仅提供了从部署到高级应用的完整路径,也针对实际使用中遇到的关键问题提出了相应的可控方案。

尽管Python API仍待完善,整体方案受模型质量及环境限制影响,但此报告无疑为金融机构智能投研技术建设提供了极具参考价值的实践范本。大模型与本地知识库结合、结构化数据深度融合的思路与技术路线,有望助力投研自动化与智能决策的未来。

---

溯源标注



本文涵盖内容均源于以下页码摘录与综合分析:[page::0-25]

---

免责声明



本分析仅基于报告内容,力求保持客观、中立,避免无报告依据的臆断。用户应结合自身实际需求、技术环境及业务场景合理运用相关技术方案。

---

结束语



该报告作为国内金融量化投研领域结合大模型与结构化数据的前沿实践范例,系统展示从架构设计、平台搭建到多消息融合Agent构建的全流程,实现智能投研落地的关键环节,具有重要的行业借鉴意义和技术参考价值。

报告