FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs
创建于 更新于
摘要
本论文提出了一种基于大语言模型的金融知识图谱构建框架,利用SEC 10-K年报数据,结合智能文档解析、表格语义块分割及反思驱动的迭代提取机制,实现高质量KG三元组构建。通过规则检测、多维度覆盖率及LLM评判等多样化评价方法,验证反思代理模式在准确率、覆盖度及业务相关性上的优越表现,显著提升了金融KG的规范性和实用性。开源了基于S&P100大规模数据集,推动金融AI领域研究发展[page::0][page::4][page::5][page::6]。
速读内容
金融知识图谱构建框架与数据源 [page::0][page::2]
- 利用S&P 100公司2024年度SEC 10-K年报构建金融知识图谱,数据覆盖权威、规模大,填补现有金融KG缺乏高质量公开数据集的空白。
- 框架集成了智能文档解析(支持保留文本及表格结构)、表格感知语义块划分和基于预定义商业领域主题的知识图谱三元组迭代抽取。
预定义模式与实体关系体系 [page::2]
- 采用业务专家+大语言模型共同定义的封闭式信息抽取schema,包括关键实体类型(如ORG、PERSON、FINMETRIC、RISKFACTOR等)及关系类型(如HasStakeIn、OperatesIn、Produces、Impacts等表1、表2)。
- 保证提取内容具备高业务相关性及规约一致性,为KG质量提供先验保障。
迭代提取模式对比及反思代理机制 [page::3][page::4]
- 三种提取模式:单次提取(single-pass)、多轮提取(multi-pass)、反思驱动代理(reflection-agent)。
- 反思代理采用多轮反馈与纠正的agent机制,用自动化评判发现错误并优化三元组,极大提升了数据规范性和一致性。
- 图示反思代理工作流程_展示了反馈、纠正与提取的迭代循环

评估指标与结果分析 [page::4][page::5][page::6]
- CheckRules规则检测(主体引用一致性、实体长度、实体关系模式合规性):反思模式整体合规率达64.8%,显著领先单次和多轮模式。
- 覆盖率指标(实体覆盖度ECR、类型覆盖率TCR、关系覆盖率RCR)反思模式最高,体现更丰富多样的知识抽取。
- 信息熵分析揭示反思模式在提升覆盖的同时有意识地降低多样性,实现语义压缩与高效表示。
- LLM作为评判者的主观质量评估:反思模式在精准度、全面性和相关性指标上表现最佳,但在真实性度量上略逊单次模式,反映提取质量与真实性之间的权衡。
- 量化评估表格示例:
| 规则检测(CheckRules) | 单次提取(%) | 多轮提取(%) | 反思代理(%) |
|------------------------|-------------|-------------|-------------|
| 整体合规率 | 42.3 | 47.3 | 64.8 |
| 覆盖率指标 | 单次提取(%) | 多轮提取(%) | 反思代理(%) |
|------------------------|-------------|-------------|-------------|
| 实体覆盖率(ECR) | 0.30 | 0.31 | 0.53 |
| 关系覆盖率(RCR) | 0.21 | 0.22 | 0.38 |
| 评判者指标 | 单次提取(%) | 多轮提取(%) | 反思代理(%) |
|------------------------|-------------|-------------|-------------|
| 精准度 | 22.3 | 38.6 | 39.1 |
| 真实性 | 40.1 | 24.4 | 35.5 |
| 全面性 | 36.3 | 15.6 | 48.1 |
| 相关性 | 34.6 | 28.1 | 37.3 |
方法优势与局限 [page::6]
- 反思驱动的多轮纠错与反馈机制有效提升KG数据质量,实现更精准且覆盖面广的信息抽取。
- 延迟推理过程带来计算开销,可能限制实时应用场景,单次提取仍为快速场景的备选方案。
- 当前跨文档共指解析有限,评测依赖LLM的偏好可能带来主观偏差。
未来工作展望 [page::6][page::7]
- 开发无模式自动生成与迭代优化的KG构建方案,提高对非标准企业数据的适应能力。
- 引入时间维度,实现时序金融知识图谱,提升事件因果分析和解释能力。
- 增强表格语义序列化模块,提升对结构化财务数据抽取的精度和表现。
- 扩展数据集规模,包含S&P 500全量及十年历史数据,推动大规模多时间序列金融KG研究。
深度阅读
金融知识图谱构建与评估报告深度分析
---
1. 元数据与概览
报告标题:FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs
作者:Abhinav Arun, Domyn团队成员(纽约和印度古尔冈)
发布时间:2024年前期(报告中引用2024年数据)
主题:金融领域的知识图谱(KG)构建技术及其评估框架,及其在SEC 10-K报告上下游金融应用的研究。
核心论点:
- 金融领域由复杂且受监管的文档构成(例如SEC 10-K),构建高质量、规模化的金融知识图谱面临特殊挑战,目前缺乏大规模、开源、结构化的金融KG数据集。
- 提出了一套基于三种提取模式(单次、多次和反思代理模式)的KG构建框架,并首次将师出于SEC 10-K最新数据的S&P100公司档案构建了大规模金融KG数据集。
- 引入反思驱动循环反馈机制(Reflection Agent)来持续改进抽取质量,综合采用规则、统计和LLM作为裁判的多维度评估,保证结果准确且可复现。
- 该数据集及方法论促使金融KG研究更具透明度、创新力和实际应用潜力,公开发布数据集供研究与开发使用。
报告展现了KG从提取到评估的完整闭环,尤其突出了反思代理作用下提升提取准确率和丰富度的能力,其典型合规评分达64.8%。同时,提出该框架具备适应不同使用场景的弹性和拓展性,是金融领域KG构建的重要里程碑。[page::0]
---
2. 逐节深度解读
2.1 引言(Introduction)
- 强调知识图谱在金融等复杂领域数据治理和知识表达中的基础作用。
- 指出现有金融KG多基于新闻文本,缺乏权威的SEC法规文档,且多数缺乏严谨评估,影响其广泛商业采用。
- 本工作创新性地基于2024年S&P100公司SEC 10-K文件构建KG,使用智能文档解析、表格感知切分、模式驱动的迭代抽取和反思式反馈,确保结构准确与信息完整。
- 构建灵活提取方法支持多种下游应用,包括多跳问答、信号生成和图分析。
总结贡献:
- 大规模开源金融KG(全S&P100最新10-K)。
- 反思驱动抽取框架。
- 综合多维评估体系(规则、覆盖率、语义多样性、LLM对比判别)。[page::0][page::1]
2.2 相关工作(Related Work)
- 传统KG构建依赖离散步骤(实体识别、关系分类)和监督学习,受限于标注数据。
- 最新趋势:利用LLM的零/少样本迭代提示方法,实现无需监督的KG构建。
- 标准化和模式规范化问题:开放式信息抽取虽大规模但同义关系多且晦涩,需通过定义、规范化减少歧义;EDC框架应用LLM自主定义并规范关系,是本报告设计的启发。
- 早期金融KG多来源于事件抽取(如新闻),而本报告首次聚焦于权威SEC披露文件。
- 堪称开创性地结合了业务专家定义的模式和LLM辅助,提升语义准确性和业务适配性。[page::1]
2.3 问题定义与模式设计(Problem Formulation and Schema Design)
- 知识图谱的基本单位为五元组三元组:(Head Entity, Head Type, Relationship, Tail Entity, Tail Type)。
- 提出了闭式信息抽取策略,由业务领域专家定义实体及关系模式,确保业务相关性和下游适用性。
- 利用LLM和专家协同确定模式,既有灵活性又符合金融数据实务标准。
- 报告中Tables 1和2给出了部分实体(如公司、人员、财务指标、风险因素、ESG主题)和关系类型(如持股、运营地区、供应关系、合规等)的范例,体现了面向金融信息的丰富语义标签体系。[page::1][page::2]
2.4 方法论(Methodology)
整体分为四层:
- 智能文档解析层
利用docling开源工具强保留SEC 10-K多格式文本和表格,文本包含章节标记,重点保障财务表格上下文完整,避免信息丢失。
图1清晰描绘了文档经解析清洗、策略切分、多轮迭代提取及评估后的闭环流程。[page::2]
- 表格感知语义切分层
为符合LLM上下文限制,提出自定义分块算法,保留表格作为不可分割单元,维护行列关系。文本分块切于段落或节标题,最大2048 tokens。
截断处理确保财务关键数据互为上下文,提升结构化抽取质量。[page::2][page::3]
- 迭代提示与代理抽取层
采用三种抽取方式对比:
- 单次(Single-Pass):一次性抽取所有三元组,结构化输出JSON,效率最高但容易归一化不足。
- 多次(Multi-Pass):先初步抽取,后续再输入原文和候选结果进行规范化,过滤重复和语义不符,提升准确度。
- 反思驱动代理(Reflection):引入批评与修正LLM循环,检查三元组一致性、业务相关性,自动纠错及剔除谬误。
实现以Qwen2.5-72B等LLM为核心,形成自我提升、反馈修正的动态抽取流程,具体数据结构和数学公式描述这一闭环迭代。[page::3][page::4]
- 评估层
设计了融合规则合规性、覆盖率统计、语义多样性(熵指标)及LLM判别评估的多元评测体系,为KG质量把控提供了全面视角。[page::4]
2.5 评估(Evaluation)
5.1 CheckRules规则合规测试
- 包括抽取主体引用消歧(避免用“公司”“我们”等抽象词)、实体名长度限制(最大5词)、实体及关系模式合规检查。
- 表3显示反思模式在关系模式合规率高达84.2%,明显优于单次和多次模式,实体模式合规最高98.1%。
- 表4分层合规统计强调反思模式在高标准多规则同时符合的比例达64.8%,远超其他模式,显示反思模式大幅提升整体数据质量。[page::4]
5.2 局部抽取效率
- 用覆盖率(实体覆盖率ECR,类型覆盖率TCR,关系覆盖率RCR)衡量抽取多样性和全面性。
- 表5显示反思模式平均每块提取15.8个三元组,覆盖率大幅优于其他模式(如ECR 0.53 vs 0.3),凸显其丰富语义信息捕获能力。[page::5]
5.3 全局语义多样性
- 测度采用Shannon Entropy及Renyi Entropy,考查实体、类型和关系分布多样程度。
- 表6表明反思模式虽然覆盖广,但熵值最低,说明其通过规则降低了信息歧义和冗余,使图谱更紧凑、连贯,符合设计预期,为可用性和导航性提供保障。[page::5]
5.4 LLM-as-a-Judge对比评估
- 利用Qwen3-32B作为评判模型,评估精度、真实度、全面度和相关度。
- 表7显示反思模式在精度(39.1%)、全面度(48.1%)和相关度(37.3%)领先,单次模式在真实度得分最高(40.1%),反映覆盖与事实准确存在权衡。
- 表8的一致性评估表明投票结果相对稳定,强调评估方法的鲁棒性。[page::6]
2.6 讨论(Discussion)
- 反思模式在准确性和丰富度达成良好折中,适合对精度和覆盖率要求高的场景。
- 其缺点是计算负担较重,推理次数多,不利于时效敏感应用,可视需求采用单次模式获得快速结果。
- 当前KG尚未完全实现跨文档共指解析,且LLM判定依赖模型内在偏差,未来须探索更多外部校验和上下文融合。
- 反思模式的设计灵感源于最新自省增强语言代理,开创了金融KG提取的动态自调范式。[page::6]
2.7 结语与未来工作(Conclusion and Future Work)
未来方向包括:
- 无模式KG构建与自我迭代:探索无需预设模式,由LLM自动发现并规范数据结构,尤其适合私有数据。
- 时间知识图谱:融入时间维度以捕捉事件演变,提升针对主题投资的因果推理能力。
- LLM评估方法提升:多样化评判模型,纳入更强推理能力,减少单一模型偏差。
- 表格序列化优化:针对财务表格设计语义保留的序列化模块,弥补当前LLM对结构化数据关系识别的限制。
- 规模扩展:未来计划拓展至S&P500及10年数据,显著扩充时间和实体覆盖度。
现有KG已初步应用于问答和新闻信号整合,展现良好前景。整体路径有望推动财务领域KG研究与应用的广泛落地。[page::6][page::7]
---
3. 图表深度解读
3.1 图1:KG构建流水线示意图(第2页)
- 展示了文档最初清洗、分块、KG提取和反馈评估的完整流程。
- 流程以金融文档为输入,经解析清洗后输出文本和表格格式并制作元数据,分块后输入到基于LLM的三元组提取和反馈循环中,最终结果存储在图数据库。
- 反馈与正则化规则贯穿始终,持续修正并优化提取质量,闭环迭代使结果趋于精确。
- 代码模块包括多个交互的LLM模型,支持动态模式选择和Prompt精调。
该图为理解整体技术架构及不同阶段如何协同作用奠定基础。[page::2]
3.2 表1和表2:实体及关系预设模式示例(第2页)
- 表1列示实体类型包括公司主体(ORG),关键人物(PERSON),外部公司(COMP),产品(PRODUCT),财务指标(FINMETRIC),风险因素(RISKFACTOR),事件(EVENT),合规要求(REGULATORYREQUIREMENT),ESG主题(ESGTOPIC)等,体现财务领域知识图谱的关键词标签体系。
- 表2列示关系类型包括“持股(HasStakeIn)”“运营市场(OperatesIn)”“生产产品(Produces)”“影响(Impacts)”“参与事件(InvolvedIn)”“受影响(ImpactedBy)”“披露(Discloses)”“合规(CompliesWith)”“供货(Supplies)”“合作(Partners_With)”等。
- 这些定义确保KG提取时的语义一致性和业务适配性。
该模式表强调了“闭式提取”与业务专家联合制定的核心理念。[page::2]
3.3 表3和表4:CheckRules合规性评分(第4页)
- 表3逐一规则对比三种抽取模式合规率。单次模式实体名长度限制最低(68.2%),反思模式提升至78%。关系模式合规反思模式显著最高达84.2%,体现该模式对关系准确性的增强。
- 表4统计满足不同合规规则数的三元组占比,四条规则全满足仅反思模式超过六成,单次和多次均不足50%,显示反思机制对三元组品质管控的明显优势。
这两个表体现了反思代理工作机制强大的错误检测及修正能力,保证KG质量。[page::4]
3.4 表5:局部抽取效率指标(第5页)
- 反思模式每文本块生成三元组15.8,远高于单次和多次。
- 各项覆盖率指标(ECR、TCR、RCR)反思模式提升明显,说明其语义抽取的多样性更丰富,KG内容更多元。
优势在于提升KG信息密度及实体类别的广泛覆盖,预示更好的知识利用效率。[page::5]
3.5 表6:语义多样性熵指标(第5页)
- 三种模式中反思模式的香农熵和Renyi熵均最低,体现其在提高覆盖率的同时有意减少了语义上的冗余和不确定性。
- 归一化后的模式熵值展示该KG已充分覆盖了定义的业务语义但仍保有提升空间。
- 该结果表明反思机制并非盲目追求多样性,而是在保证质量的前提下追求图谱连贯性和可用性。
为KG后续的可扩展性和可解释性奠定坚实基础。[page::5]
3.6 表7和表8:LLM评判比较结果(第6页)
- 表7反思模式在“精度”“全面性”和“相关性”上表现最佳,说明其抽取更具信息量且业务相关。
- 单次模式在“真实度”上略胜一筹,体现其谨慎抽取的特性。
- 表8给出了多个判定运行间的投票一致率,均超过80%,说明评估结果稳定可信。
此处突显了KG构建的核心挑战:完整性与准确性需做平衡选择,反思模式在应用场景中具备良好适应性。[page::6]
3.7 图2:反思代理循环示意(第4页)
- 动态展示了三元组提取与反馈循环交互过程:提取器初步生成三元组,反馈LLM识别错误和优化建议,提取器根据反馈修正并生成更新三元组,持续迭代直至无错误。
- 该闭环确保数据逐步净化,提高KG的业务契合度和合理性。
全图清楚展现了反思机制作为核心创新对提升KG结构稳定性和语义标准化的技术贡献。[page::4]
---
4. 估值分析
本报告为技术研发类研究报告,并未涉及对具体公司财务指标估值的分析或目标价的设定,重点在于技术框架构建和抽取质量提升评估。因此无传统意义的估值模型(如DCF、P/E等)分析,但其所构建KG为金融数据分析和量化模型提供了结构化基础数据,在未来可支撑多样的估值和投资决策模型。
---
5. 风险因素评估
- 关联文档碎片化与共指解析不足:当前反思循环基于单篇文件,缺少跨文档共指消歧,长期数据整合存在风险,可能引发实体重复或模糊。
- LLM模判偏见风险:使用特定LLM做为判读工具,若模型存在内在偏差,将影响评估结果及KG可信度。
- 抽取规则与模式限制:预设模式虽保证业务相关,但存在覆盖不足导致部分语义遗漏风险,未来需增强模式发现与开放式抽取能力。
- 计算资源及时效性:反思模式推理轮数多,增加计算成本及延迟,不宜对速度高度敏感业务。
- 表格语义弱:当前对财务表格的序列化尚不完善,难以充分挖掘表内复杂关系,影响KG量化指标的完整性。
报告均对这些风险提供了未来研究方向和缓解措施的规划,显示技术团队具备科学谨慎的态度。[page::6][page::7]
---
6. 批判性视角与细微差别
- 报告虽强调反思模式优势,但客观指出其“真实度”不及单次模式,反映复杂模型仍面临推理错误风险和潜在信息过载的问题。
- 对评估依赖同一系列LLM做裁判,评判结果固然稳定但可能导致模型自我强化偏差,未来需多元模型验证。
- 多数实验依赖于结构化规则和固定模式,过度规范可能限制高自由度复杂语义挖掘,存在覆盖率和深度的权衡。
- 跨文档整合及时间动态相关性的不足,限制了KG在长期财务分析及事件驱动投资上的深化应用。
- 表示基础工具(如docling、Qwen模型)性能快速进步,但迁移性、业务特异性经验积累仍待深入。
总体来看,报告内部架构逻辑一致,技术选型合理,注重结合业务需求制定抽取模式,体现高度专业且战略性的研发思路。
---
7. 结论性综合
本报告面向金融知识图谱领域,呈现了一套结合多模态智能解析→表格感知语义切分→迭代反思驱动三元组抽取→多维联动评估的创新框架,重点突破了金融文档复杂性和监管要求对KG构建的限制。具体优势体现在:
- 开源大规模数据集:首次系统构建并发布基于2024年S&P100全样本SEC 10-K文件的金融KG数据集,填补了市场空白。
- 反思驱动提取机制:采用agentic方式让LLM在抽取过程中自我反馈、修正,不断提升抽取质量,达到64.8%高规则合规得分及多指标领先。
- 综合评估系统:融合规则合规、覆盖率、语义多样性、LLM作为判官多角度评价体系,确保KG准确、全面且易用。
- 图谱质量权衡清晰:较高覆盖率配合相对降低的熵指标,体现KG紧凑性和业务凝聚力良好,具备极强实际应用价值。
- 业务标注驱动的模式设计:以业务专家为核心制订实体和关系语义标签,保障KG的财务领域业务相关性和可解释性。
- 完善的文档处理技术:基于docling工具,实现对复杂且结构化的财报文档高保真解析,表格与文本信息得以完整传递。
- 多用途应用潜力:KG可支持智能问答、多跳推理、市场信号生成、图谱分析等金融尖端应用场景。
报告的创新核心是引入反思代理机制实现KG构建的“自我进化”,最大程度平衡了数据质量与提取覆盖度,同时提供完善开源资源促使学术和产业创新。
该框架及数据集对金融信息结构化处理具有里程碑意义,将助力金融AI领域实现更高透明度、更强可信度与更广泛应用,同时为未来扩展至时间知识图谱和无模式构建奠定坚实基础。[page::0][page::1][page::4][page::5][page::6][page::7]
---
参考关键图表说明(Markdown引用)
- 图1(KG构建流程示意图)

- 图2(反思代理迭代流程示意)

---
总结
本报告是金融知识图谱领域集理论创新、系统设计及应用实践于一体的开创性工作,为金融机构和科研人员在权威文档基础上开展可信赖的结构化知识抽取与智能应用研究提供了宝贵资源和方法论,极具现实价值及未来拓展潜力。