如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇
创建于 更新于
摘要
本报告系统阐述了基于RAG架构的本地智能投研系统构建方法,重点分析了开源RAGFlow解决方案的整体架构、关键技术及痛点优化。文档解析采用DeepDoc组件实现对复杂文档的深度分块,辅助以Raptor递归摘要策略及知识图谱机制提升信息质量;检索环节采用关键词搜索与向量搜索的多路召回策略,辅以基于Transformer的重排序模型确保结果精准度;结构化数据与非结构化数据融合处理增强系统多模态检索能力。基于金融领域样本的实证评测发现,RAGFlow在Embedding模型(推荐SFR-Embedding-Mistral)和Reranker模型(bce-reranker-base_v1)组合及参数优化(文档分块Token数512、Raptor参数配置与查询阈值调整等)后,展现出优异的检索和问答效果。最后,结合Text to SQL与自动化周报写作示例,展望RAGFlow在金融智能投研中的应用潜力 [page::0][page::2][page::12][page::19][page::22][page::24][page::30][page::40][page::47][page::49]
速读内容
- RAG架构关键工作流与痛点分析 [page::5][page::8][page::10]


- RAG包括“索引入库”和“检索输出”两大过程,核心是向量数据库的知识存储和调用。
- 痛点涵盖文本识别分块、信息处理、embedding模型选择、内容检索、重排序模型及提示词处理。
- 向量数据存储与检索的高效实现,关键影响大语言模型输出质量。
- RAGFlow架构与核心技术优化 [page::12][page::13][page::14]

- RAGFlow强调“Quality in,Quality out”,使用DeepDoc实现复杂文档的解析和分块,适配多样文档类型(手册、论文、表格等)。
- 引入Raptor策略通过递归摘要缓解文本块信息碎片化;知识图谱增强实体间关联性和信息层次。
- 检索采用多路关键词+向量混合搜索,融合关键词相似度和基于Transformer的Reranker模型重排序提升准确率。
- 进一步优化Prompt设计,开启Deep Research功能,增强推理链能力,但实际应用中存在效率和资源消耗挑战。
- 复杂文档解析与结构化数据支持 [page::15][page::16][page::17][page::18]


- DeepDoc模块具备OCR视觉识别、版面布局分析、复杂结构分块等能力,更细致区分公式序号、图表注释。
- 结构化表格数据支持XLSX、CSV、TXT格式解析,重构为以“列名对应单元格值”组织的文本块,兼顾复杂表格布局和信息语义。
- 金融场景中结合结构化财务指标与非结构化文本,多维度联合智能分析与决策支持。
- Raptor召回增强及知识图谱技术介绍 [page::19][page::22][page::23]


- Raptor通过递归聚类实现多层次文本摘要,弥补语义鸿沟,常用“折叠树检索”方式平铺检索文本块。
- 知识图谱利用LLM进行实体识别与关系构建,形成图结构和节点社区,支持社区摘要以增强信息检索的深度和结构化呈现。
- Embedding模型与多路混合检索方案 [page::23][page::24][page::25][page::26]


- 选型基于多任务、多领域基准评测(MTEB),推荐使用e5-mistral-7b-instruct、Linq-embed-Mistral和SFR-Embedding-Mistral等长序列、高表现模型。
- 混合检索包括关键字全文搜索与向量搜索结合,使用加权相似度融合召回文本,实现检索精准与覆盖兼顾。
- Elasticsearch作为核心向量数据库,未来将引入AI原生向量数据库Infinity支持三路召回及更优的结构化数据支持。
- 重排序模型与Prompt设计 [page::28][page::29][page::30]



- Reranker基于交叉编码器架构,提升候选文本块排序精度,结合关键词相似度加权提高重排序灵活性。
- 高级Prompt设计引导LLM准确结合知识库内容生成答案,兼顾对话上下文,RAGFlow实现Deep Research迭代推理链提升逻辑深度。
- 推理模型在资源消耗和效能上仍存折中,亟待接口优化支持人机交互式推理链。
- 评估体系与最优策略确定 [page::37][page::38][page::39][page::40][page::41][page::43][page::44][page::45][page::46]

- 基于金融领域15篇研报样本设计三轮多场景问答,利用RAGAs框架综合5项指标(上下文精度、召回率、实体召回率、真实度、事实正确性)量化RAGFlow性能。
- 文档解析优选“General”方式,开启知识图谱社区摘要与Raptor召回增强获得最佳表现,检索输出开启多轮对话优化不启用推理效果更优。
- 表格知识库与文本知识库混合检索保证100%数据准确性,适度设置知识库优先级实现多模态数据融合但需避免优先级滥用导致相关性下降。
- 最优模型与参数配置方案 [page::44][page::45][page::46]
- 推荐Embedding模型为SFR-Embedding-Mistral,辅以bce-reranker-base_v1重排序模型,支持长文本分块(Token数512);
- 聊天助手相似度阈值设置为0.2,关键词相似度权重0.3,Top N建议为6-8优化输出质量与速度平衡;
- Raptor策略参数建议最大Token数256,聚类阈值0.1,最大聚类数96,兼顾性能与效率。
- 实际应用展望:Text to SQL和自动化报告 [page::47][page::48]


- RAGFlow支持文本自然语言转SQL查询,结合多知识库(DDL、数据库描述、示例SQL)增强转换精准度,适合关系型数据库智能查询。
- 结合结构化市场指数数据与非结构化行业报告、新闻,实现金融市场周报自动化写作,大幅提升投研效率及决策智能化水平。
- 结论总结 [page::49][page::50]
- RAGFlow通过对文本解析、向量化、检索召回、重排序和Prompt设计的系统性优化,实现了面向金融智能投研系统的高质量本地知识库建设解决方案。
- 实证结果显示其在检索质量和数据准确性上优于同类开源方案(如Dify),具备丰富的功能拓展潜力,尤其在金融结构化与非结构化数据的深度融合及应用场景落地具备领先优势。
- 未来版本迭代及不同大语言模型选型将带来性能波动,用户需注意模型可靠性与输出准确性风险,结合业务需求灵活调整方案配置。
深度阅读
证券研究报告详尽分析报告
报告标题: 《大模型赋能投研之七 :如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇》
发布机构: 国金证券股份有限公司
发布日期: 2025年4月20日
分析师: 高智威(执业编号S1130522110003)、许坤圣(执业编号S1130524110001)
主题: 介绍和剖析RAG架构,及其在本地智能投研系统中结合结构化数据的应用,重点聚焦开源解决方案RAGFlow的原理与评估。
---
一、元数据与报告概览
本报告系统地介绍了RAG架构(Retrieval Augmented Generation,检索增强生成)的关键原理及其在本地智能投研系统的构建中,特别是结合结构化数据的价值和实现方式。报告核心聚焦于RAGFlow开源方案,阐述了RAG流程的技术细节、痛点问题及解决方法,并通过实际金融研报样本进行了系统评估,筛选出较优技术组件与参数组合,最终明确了RAGFlow在金融投研领域的应用能力与前景。
报告没有明确评级,但通过严谨的技术解析与金融数据实证,传达了RAGFlow作为当前RAG开源方案中“质量优先”代表的地位,展现其在复杂业务场景中的可行性与领先性。
---
二、逐章节深度解读
2.1 RAG架构与关键痛点理解(第1-2页及第4-10页)
- RAG定义与核心价值: RAG架构通过构造一个本地知识库(基于向量数据库),结合Embedding与检索模块,在大语言模型(LLM)基础上补充及时、专业的信息,缓解大模型“幻觉”、资讯过时和专业知识缺失三大困境,提升LLM的回答精准性和逻辑推理能力。
- RAG工作流程: 划分为“索引入库”和“检索输出”两个主要过程,前者文本分块/嵌入向量并存入数据库,后者用户查询转嵌入、检索匹配相关文本块、传递到LLM进行生成。
- 痛点层层拆解: 索引入库过程的三个痛点(文本识别与分块、信息进一步处理、Embedding模型选择);检索输出过程的三个痛点(内容检索、多路召回与重排序模型选择、Prompt设计);向量数据库作为中枢节点也存在数据存取性能与结构化数据融合支持难点。
- RAGFlow选择理由: 市面多方案包括FastGPT、Dify,RAGFlow因强调“Quality in, Quality out”,在文本解析、召回增强和知识图谱策略等方面设计更为精细,被选为分析主体。
---
2.2 RAGFlow技术细节解析(第12-25页)
- DeepDoc组件:
- 负责复杂文档的视觉识别与版面分析,根据文档类型(手册、论文、表格等)制定差异化解析策略。
- 使用开源OCR(PaddleOCR),结合深度学习的细粒度版面分析模型实现结构元素识别(段落、表格、图片、公式等)和文本内容分块。
- 对比其他工具(MinerU等),DeepDoc在公式序号、注释区分上表现更优。
- 结构化数据支持:
- RAGFlow支持对xlsx/csv/txt格式表格文件解析,使用“Table”模式,精准识别表格结构(行列、合并单元格等)。
- 每行作为一个文本块,按列名-单元格值方式组织,保证了精确信息保留和数据库可用性。
- 结构化与非结构化数据融合实现了双模态知识库检索,特别适合金融投研中财务指标与文本舆情融合需求。
- Raptor召回增强策略:
- 递归抽象处理树(Raptor)通过对分块文本聚类及生成高层次摘要,形成层级树形知识结构,缓解语义鸿沟,提高检索召回质量。
- 在检索时使用折叠树检索技术将树形结构“铺平”,便于与混合搜索多路召回逻辑结合。
- 知识图谱策略:
- 基于实体识别与关系抽取,构造节点(实体)-边(关系)图,进行社区划分,形成层次化社区摘要。
- 实现实体去重与社区摘要,提升知识库结构化和语义表达能力。
- 查询时结合实体匹配、社区摘要召回辅助LLM生成更精准回答。
---
2.3 Embedding、召回与重排序模型选型(第23-30页)
- Embedding模型作用:
- 将文本和查询转换为向量,捕获语义信息,实现相似内容向量空间的距离度量。
- 评估使用MTEB和财政金融领域样本,排名靠前的包括微软的multilingual-e5-large-instruct,Google的gemini-embedding模型,以及e5-mistral-7b-instruct。
- 综合考虑向量维度和最大Token数,优选模型为SFR-Embedding-Mistral、e5-mistral-7b-instruct和Linq-embed-Mistral。
- 混合搜索与多路召回:
- 主流策略是关键词搜索和向量搜索的结合,各种搜索结果加权融合。
- RAGFlow依赖Elasticsearch实现双路召回,内部使用倒数融合排序(RRF)的方法整合搜索结果。
- 未来计划接入自研AI原生向量数据库Infinity,支持“三路”召回(向量+稀疏向量+全文)和结构化/非结构化数据融合查询。
- 重排序模型(Reranker)设计:
- 旨在对召回的文本块进行细粒度排序。
- 他同时融合关键词相似度与深度学习Reranker模型评分(通常基于BERT及其变种的交叉编码器),用户可调关键词权重。
- 实测中Jina reranker最佳,BCE reranker-basev1为次优,且RAGFlow内置BCE reranker,部署便利。
- Prompt设计与Deep Research功能:
- Prompt用以将检索结果与用户问题结合,合理引导LLM生成答案。RAGFlow设计有默认的提示模板,同时加入支持推理链的Deep Research模块。
- Deep Research基于迭代检索-推理-反馈闭环,增强逻辑推理能力,但目前仍存在推理模型效率低、接口开放性差等限制。
---
2.4 向量数据库与系统架构(第32-35页)
- 向量数据库对比:
- Elasticsearch因文字搜索与向量检索混合能力强、一体化和成熟度高,成为当前RAGFlow默认选择。
- Infinity数据库的规划重点在于解决“多路召回”和“结构化/非结构化数据融合”问题,支持稠密、稀疏、张量和全文多模态检索,并优化搜索结果融合排序。
- RAGFlow系统整体架构:
- 分为“文档输入与解析(DeepDoc)”、“任务与查询分发”、 “多路召回检索”、“重排序”和“回答生成”等关键节点。
- 支持多格式文档和复杂解析策略,用户可以根据需求选择各种参数组合,实现定制化配置。
---
2.5 评估设计与结果(第35-46页)
- 评估体系与数据:
- 选取15篇金融行业各细分领域(行业研究、宏观经济、金融工程)的研报作为测试库,设计三轮带上下文问答覆盖多重应用场景。
- 使用专为RAG设计的RAGAs评价框架,构建五大指标体系:上下文精度、上下文召回率、上下文实体召回率、真实度、事实正确性,并使用F1和平均指标对结果综合评价。
- 评估结果:
- 文档解析策略中,General解析方式表现最佳,同时开启Raptor召回增强及知识图谱(社区摘要)效果最佳,但耗时较长。
- 检索输出方面,开启多轮对话优化有利但开启推理模型(DeepResearch)反而影响整体表现。
- RAGFlow整体表现优于Dify默认配置,说明RAGFlow架构及优化策略的有效性。
- 结合结构化数据检索评估:
- 单独表格型知识库达到100%数据准确率。
- 与文本知识库混合检索时略有影响,但整体检索质量仍高。
- 人为提高表格库优先级(页面排名)需注意,错误设置可导致重要文本结果被挤出(排名干扰)。
---
2.6 关键组件参数与模型组合优化(第43-46页)
- Embedding与Reranker模型组合:
- 通过组合测试确认最优组为“SFR-Embedding-Mistral + bce-reranker-basev1”,其次为bce-embedding-base搭配bce-reranker。
- bce-embedding-base存在上下文长度限制,推荐采用最优组合。
- 通用解析参数调整:
- 块Token数量512或1024时性能接近,128和256则较差,考虑解析速度建议设置512。
- 聊天助手参数选取:
- 相似度阈值推荐0.2,关键词相似度权重约0.3,Top N文本块数量6-8。
- Raptor召回策略参数:
- 最大token数256,聚类阈值0.1,最大聚类数96效果较佳。
---
2.7 RAGFlow应用示例(第47-48页)
- Text to SQL:
- 系统通过设定多知识库(数据库DDL、描述、示例)和大模型推理,实现自然语言查询自动转换为SQL语句,提升关系数据库交互效率。
- 报告自动化写作:
- 基于多模态数据(行业报告文本,结构化行情数据等)融合检索,利用Python API自动编写市场周报,推动金融投研报告智能化生产。
---
三、图表深度解读
- 图表1(RAG架构工作流,页5):展示索引和检索过程的八步骤,明确了文本分块、Embedding映射向量、构建向量数据库、Query向量化、数据库检索、召回文本块、传递给LLM和输出回答的流程,奠定RAG基础框架。
- 图表4(RAG痛点拆解流程,页8):清晰分“索引入库" 和“检索输出”两大流程,每个细分流程包含3个关键痛点,突出文本识别/分块、信息预处理、Embedding选择及多路召回、重排序、Prompt设计的重要性。
- 图表6(RAGFlow系统架构,页13):详细展现RAGFlow具体组件,结合DeepDoc、任务分发、查询分析、多路召回和重排序步骤,体现优化细节领先通用架构,更好支持复杂金融数据。
- 图表10(DeepDoc流程,页16):揭示视觉识别、版面分析与解析分块的组合关系,强调版面元素(段落、表格、图像)分别解析路径,支持结构信息保留和块化形成。
- 图表13-14(Raptor策略及检索方式,页19-20):以递归聚类+摘要形成层级树,凸显处理超长文档和复杂语义结构的能力,选用平铺树检索融合现有流程。
- 图表15-16(知识图谱流程和框架,页22-23):通过实体识别、关系抽取、社区划分和摘要生成,推动文本块间的语义网络构建,提升查询精度。
- 图表17-21(Embedding模型评测,页24-25):多模型MTEB评测数据对比,特别关注金融领域表现,展示不同Embedding维度、Token长度与排名,辅助模型选型。
- 图表22-23(混合搜索与双路召回示例,页26):阐述关键词搜索与向量搜索的加权融合机制及其工作流程,展示如何从多个角度召回结果。
- 图表25-26(Bi-Encoder 与 Cross-Encoder对比,页29):课程技术剖析,Bi-Encoder分开编码向量后计算距离,效率高但语义理解弱;Cross-Encoder融合输入整体打分,精度高但计算资源大。
- 图表27-28(重排序模型对比指标,页29):评估不同深度学习Reranker模型,Jina表现最优,bce-reranker-basev1次之,为模型选型依据。
- 图表29-30(Prompt设计与Deep Research工作流,页30-31):展示控制对话输出的Prompt模板以及支持多子任务迭代的推理闭环,从而增强回答细致度和逻辑严谨性。
- 图表31-34(向量数据库对比及数据结构,页33-35):对比主流数据库特性,说明Elasticsearch选择理由及未来接入Infinity创新,示范向量数据结构字段保证信息丰富。
- 图表38-40(解析与检索策略表现及对比,页39-41):综合指标显示General+知识图谱+多轮优化为最好配置,RAGFlow优于Dify默认配置,体现方案有效性。
- 图表42-43(结构化数据检索准确性测试,页41):突出结构化数据100%准确率,混合检索轻微影响文本质量,排序参数调整过度可能导致效果下降。
- 图表44-47(模型搭配及关键参数寻优,页43-46):展现Embedding与Reranker组合评测,General入库Token数、聊天助手参数和Raptor策略参数调优,指导部署细节。
- 图表48-51(最终方案及应用示意,页47-48):总结最优技术路线,展现Text to SQL和自动化报告写作多场景应用,用流程图还原系统实际操作支撑。
---
四、估值分析
报告技术类,未阐述企业财务估值相关内容,无传统估值方法与目标价。
---
五、风险因素评估
- 技术风险:
- RAGFlow当前推理模型投用存在效率低和接口闭塞限制,导致推理能力发挥不足。
- 嵌入模型与重排序模型配搭若选型不当影响检索精度。
- 知识图谱及Raptor策略引入会增加解析时间,影响实时性能。
- 数据风险:
- 输入数据的质量与格式不规范将影响DeepDoc解析效果,进而降低系统整体性能。
- 结构化与非结构化数据融合过程存在排序权重误配可能导致关键答案被覆盖。
- 模型泛化风险:
- 小样本评估、LLM模型替换或实际领域差异都会引入结果波动,难保证跨场景一致表现。
- 业务落地风险:
- RAG架构不能完全消除大模型“幻觉”,结果存在随机和准确性风险,需人工审核。
报告对部分风险提供折中策略,比如合理参数配置、分离混合检索流程,权衡时间与效果。
---
六、审慎视角与细微差别
- 报告强调RAGFlow的“Quality in, Quality out”设计理念,将技术细节与系统设计进行了深度披露,展现出较强的系统理解与工程实践能力。
- 但对大语言模型的“幻觉”问题及推理模型限制仅作简单表述,未深入探讨替代技术或可能的算法优化空间。
- 结构化数据优先级调整策略的负面影响点出较为关键,表现了评价的客观性。
- 评估重点集中在研报样本,未来如更大规模、多样化领域检验可能带来表现变化。
- 推理链的实用性与实效性依赖底层大模型性能,且测试环境依赖特定版本和工具,存在版本演变带来的不确定性。
- 知识图谱和Raptor策略执行的计算/时间开销问题也需实际部署权衡。
- Prompt设计和代理工作流的深度利用值得金融应用场景进一步研究。
---
七、结论性综合总结
报告详细解析了RAG架构的基本模型和工作流程,尤其聚焦了当前RAG开源方案中以RAGFlow为代表的高质量实现。通过DeepDoc对复杂文档尤其金融研报的精细视觉解析和文本分块;结合递归抽象处理树(Raptor)策略与知识图谱技术,补足分块上下文缺失与语义薄弱问题;利用精准的Embedding模型和高效的双路(关键词+向量)混合召回检索以及基于Transformer的深度重排序模型,改进检索质量和信息排序;配合优化的Prompt控制和复杂推理链的Deep Research迭代推理能力,构建基于向量数据库的强大本地知识库问答系统。
具体从金融实际样本出发,基于15篇研报设计多轮上下文问答,利用RAGAs从多维度评估多种系统配置性能,筛选出最佳技术方案为:
- 文档解析方式选择 General,块大小512-1024 Token,开启社区摘要的知识图谱,视延迟需求适当开启Raptor召回增强;
- 检索输出开启多轮对话优化,关闭推理链DeepResearch以避免负效应;
- Embedding模型优选SFR-Embedding-Mistral,重排序模型选用bce-reranker-basev1,实现检索精度与效率平衡;
- 默认向量数据库为Elasticsearch,未来可期待AI原生数据库Infinity的先进多模态检索与融合能力;
- 结构化数据解析尤其对表格数据支持完善,实现100%准确性数据检索并可与文本库混合使用;
- 结合Text to SQL及自动化周报写作等金融场景拓展,RAGFlow展示应用场景广泛的潜能。
综上,报告充分论证了RAGFlow系统在本地构建高质量智能投研系统的可行性与有效性,不仅有效应对专业金融领域中的海量复杂文本与精准结构化数据需求,也为大语言模型应用高清视频层面提供了坚实的技术基石。报告中详尽的流程解析、技术组件介绍及丰富的实证评估结果为金融机构在智能投研、知识管理与决策支持系统建设方面提供了极有价值的参考蓝图。
---
参考文献与数据截图索引
- 文档原文“图表1-51”均在说明对应页有详细示意或数据表,均已正文中标明及图片说明。
- 引述正文页码示例:RAGFlow优于Dify对比测试结果见[page::40][page::41],DeepDoc功能剖析见[page::15][page::16],Raptor策略流程见[page::19][page::20]。
- 技术细节与代码示例数据结构见[page::34]等。
---
(全文共逾万字,本分析报告严格依据原文内容与数据呈现,以保证信息完整、专业且详尽。)