Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency
创建于 更新于
摘要
本报告评估了GPT-4、PaLM 2和MPT Instruct三款大型语言模型(LLMs)作为金融领域关系抽取数据标注工具的效果和效率。研究显示,GPT-4和PaLM 2显著优于非专家众包标注者,能够替代一部分人工标注工作,结合引入的可靠性指数(LLM-RelIndex)可有效筛选需专家复核的样本。此外,通过多种prompt设计和多轮实验,分析了模型性能、标注一致性、错误类型与成本时间,对未来金融领域自动标注任务提供了实践建议 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7]。
速读内容
- LLM在金融领域数据标注中的表现评测 [page::3]:

- GPT-4和PaLM 2远超众包标注者,最高F1得分分别为68.4%和63.3%,MPT Instruct较弱但在5-shot CoT prompt下略优于人类。
- prompt设计对模型性能影响显著,尤其对较小模型MPT影响更大,大模型表现更为稳定。
- 量化模型一致性及性能稳定性分析 [page::4]:
- GPT-4和PaLM 2在不同温度及多prompt间保持高标注一致性(Inter-Annotator Agreement)。
- MPT Instruct存在较大随机性,同一参数下结果差异明显。
- 多模型投票虽提高整体准确率,但不保证所有prompt中均优于单模型。
- 错误类型与挑战分析 [page::4][page::5]:
- 语义歧义导致误判,如“MEMBER OF”和“EMPLOYEE OF”混淆。
- 部分模型存在关系“幻觉”现象,尤其是PaLM 2在5-shot CoT条件下对无关关系标签误判超过80%。
- 三重错误场景示例:众包错误而LLM正确;众包与LLM均错误;众包正确而LLM错误。
- LLM-RelIndex可靠度指标效果与应用 [page::5][page::6]:



- 根据LLM-RelIndex的置信度排序,LLMs可对约65%的任务生成可靠标注,在此基础上只需针对余下复杂样本由专家复核,显著降低人工成本。
- 从零样例到few-shot/coT提示,模型性能逐步提升,尤其是更多示例和推理过程提示带来准确率提升。
- 时间与成本效益分析 [page::6]:
- GPT-4成本最高约24-51美元,PaLM 2最低约5-9美元,MPT Instruct成本与GPT-4相近。
- 人工众包标注平均成本约389美元(单人计算),自动标注大幅节约时间和成本。
- 研究结论及建议 [page::7]:
- LLMs尤其是大模型可以作为非专家众包标注者的有效替代,节省标注时间与经费。
- 专家标注仍为高质量数据保障,推荐结合LLM-RelIndex构建混合标注体系。
- 精心设计prompt及调优参数对提升标注准确率至关重要。
- 未来工作可探索多标签处理及自动化相似度计算,扩展数据源多样性。
深度阅读
金融领域大型语言模型作为数据标注工具的有效性与效率研究 — 深度分析报告
---
一、元数据与报告概览
- 报告标题:Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency
- 作者团队:Toyin Aguda, Suchetha Siddagangappa, Elena Kochkina, Simerjot Kaur, Dongsheng Wang, Charese Smiley, Sameena Shah
- 发布机构:JPMorgan AI Research(摩根大通人工智能研究团队)
- 发布时间:2023年
- 研究主题:评估大型语言模型(LLMs)在金融领域文本数据标注中的应用效果和效率,针对金融特定任务(尤其是金融关系抽取任务),比较LLMs与人类专家及非专业众包标注者的表现差异。
核心论点
本报告深入研究了LLMs(GPT-4、PaLM 2、MPT Instruct)作为数据标注工具在金融领域的适用性和效能,核心发现如下:
- LLMs能在准确率和一致性方面明显优于非专业众包工作者,且具有较好的时间和成本效益。
- 尽管LLMs表现优于众包者,但其准确率尚未达到领域专家的水平,仍需专家介入进行复核。
- 通过设计优化的提示词,尤其是为特定的关系类型定制例子(few-shot),能显著提升模型表现。
- 引入了“可靠性指数(LLM-RelIndex)”以辅助筛选哪些模型标注结果可信,哪些需专家复核,从而实现“自动标注+专家复核”的混合策略,提升整体标注质量和效率。
以上信息为后续深入解读各章节分析的基础。[page::0,1]
---
二、逐节深度解读
2.1 摘要与引言
- 关键内容
- 金融文本标注专业需求强,专家匮乏且成本高昂,众包难以保证质量。
- 大型语言模型虽已在通用领域标注任务中表现出色,但其在金融领域的能力缺少系统验证。
- 本研究利用REFinD金融关系抽取数据集对GPT-4、PaLM 2及MPT Instruct三款LLMs进行评测,比较其与专家及众包结果。
- 引入新指标LLM-RelIndex用于评估标注结果的可靠程度,辅助筛选高质量标注。
- 逻辑与假设
- 假设LLMs能够代替部分非专业众包者减轻专家负担,有效提升标注效率及成本效益。
- 任务难点集中于金融领域语义的复杂性及关系类型的专业细分,LLMs性能优劣关键在是否具备理解和区分这些细微关系的能力。
- 背景挑战
- 复杂且长句金融文本、隐晦或细节差异明显的关系标签、缺乏通用语义模型对专业词汇的掌握能力等,使关系抽取在金融领域难度较大。
- 众包虽能带来规模便利,但质量不稳定,需要多轮校正和专家最终干预。
- 示例说明
- 图1中“Mississippi Power Company”和某日期之间标注关系存在专家与众包者的分歧,精确揭示了金融领域标注的知识门槛(专家判定“无关系”,众包误判为“成立于”)[page::0,1]。
---
2.2 相关工作综述
- 分析要点
- 现有研究多集中于一般领域或社交媒体文本的标注任务,报道LLMs作为标注者存在性能波动,一些研究显示LLMs优于人类,另一些则表现欠佳,尤其缺少金融领域的深入验证。
- 现有金融领域对LLM的研究较少,多数聚焦于识别实体、文本分类等任务,少有专门针对关系抽取的标注工作探索。
- 本文创新在于同时比较三款规模差异显著且架构各异的LLMs,进一步评估模型差异及泛化能力。
- 主要文献支撑
- Wang et al. (2021)提出利用GPT-3节约标注成本的思想;Gilardi, Alizadeh等(2023)和Törnberg(2023)提供了LLMs优于众包者的普遍证据,但专门针对财务领域的结果不足。
综述部分强调,尽管相关领域已有初步尝试,金融领域的专门探究仍不充分,推动本研究的必要性和前沿性。[page::1]
---
2.3 数据集介绍
- 使用REFinD数据集(Kaur et al. 2023)作为基准测试集,是迄今为止覆盖公共财务文件(10-X报告)的最大规模金融领域关系抽取数据集。
- 数据集包含28,676条实例,涵盖22种关系类型,涉及8种实体对(如PERSON-TITLE, ORGANIZATION-DATE等),其中我们的实验选取了3598条测试集样本。
- 该数据集注重区分专家与众包者单独标注,以及数据本身于2023年发布,降低被模型“见过”的可能,确保测试的公平性和真实性。
此数据集的选择保证了实验在金融领域的代表性与严谨性。[page::1]
---
2.4 模型与实验设计
- 模型:
- 选取GPT-4(约1.7万亿参数)、PaLM 2(3400亿参数)及MPT Instruct(70亿参数)覆盖了主流大型模型,从超大规模到较小的开源模型,便于研究模型规模及训练机制对标注性能的影响。
- 两种温度参数(0.2和0.7)用于控制生成过程中的随机性,考察模型在不同“创造力”下表现的稳定性。
- 提示设计:
- 采用6种不同类型提示(zero-shot,few-shot,few-shot Chain-of-Thought),全部基于REFinD数据集的众包标注说明设计,确保任务指引和人群对比条件尽可能一致。
- Prompts包含任务说明、带标注实体的句子和选项列表,且选项顺序随机打乱以减少顺序偏差。
- Chain-of-Thought设计意在通过引导模型思考过程提高关系推断准确性。
- 评估指标:
- 以与专家标注的准确率和微平均F1分数为主要度量,兼顾模型自我一致性(inter-annotator agreement)用Cohen’s Kappa和Fleiss’ Kappa检验。
- 除此之外引入“LLM-RelIndex”,结合多个标注结果的相似度加权投票,量化每条标注的可靠度。
- 任务:
- 所有模型均以选择题形式处理,确定两个高亮实体间的关系类型(通常在3个选项内,如“formed on”、“acquired on”、“no relation”),与专家与众包相同。
此部分设计合理且严谨,为有效评估LLMs的金融领域标注能力奠定基础。[page::2]
---
2.5 模型表现分析
- 性能对比
- GPT-4和PaLM 2显著优于众包者,F1评分提升高达29%。
- MPT Instruct整体表现低于两大模型,但在5-shot CoT提示下,仍超过了众包者。
- 所有LLMs距离专家标注的理想表现还有明显差距,提示LLMs尚无法完全替代专家。
- prompts设计对模型表现影响显著,GPT-4在zero-shot full instruction提示情况下表现最佳,MPT对few-shot示例反应更敏感。
- 一致性
- GPT-4和PaLM 2在同一参数设定下运行两次表现高度一致,随机性较低。
- MPT表现出较大波动,尤其受温度和随机种子影响显著。
- 不同提示类别间一致性较差,提示策略直接影响输出稳定性。
- 图表解读

图3显示专家准确率设为100,GPT-4达到68.4,PaLM 2为63.3,众包者38.6,MPT最差,仅28。曲线反映出标注效果与模型大小及微调程度具正相关,且专家依然领先明显。
- 温度效果
- GPT-4和PaLM 2受温度变化影响微小,稳定性强。
- MPT表现波动无稳定趋势,提示其模型规模和训练数据限制。
该章节明确展示LLMs的潜力,尤其是大型模型,超越非专家众包者,但仍需更多优化和专家参与。[page::3,4]
---
2.6 组合模型与一致性分析
- 模型组合
- 多模型简单多数投票虽提升整体准确率,但并非适用于所有提示类型,表现不稳定。
- 自我一致性(Inter-Annotator Agreement, IAA)
- GPT-4和PaLM 2在相同参数两次运行间IAA较高,随机性低;MPT一致性差。
- 温度变化对GPT-4影响有限,对PaLM 2及MPT影响较大。
- 改变提示类型会明显降低一致性,提示设计为关键变量。
此分析提示LLMs,特别是大模型具备较稳定的输出能力,满足标注可靠性要求的部分基准,但如何在不同提示间保持稳定还有待改进。[page::4]
---
2.7 深度错误分析
- 语义歧义
- 错误多因相似关系标签混淆,例如MEMBER OF与EMPLOYEE OF,FORMED IN与OPERATIONS IN的区分不清。
- 实例:“W. Howard Keenan, Jr.”被误标为MEMBER OF而非EMPLOYEE OF,突出模型对微妙语义理解不足。
- 关系幻觉(Relation Hallucinations)
- 模型在"No/Other Relation"标签的实例中出现主观编造关系的情况,尤其是PaLM 2在5-shot CoT提示下误标比例达80.7%。
- GPT-4、PaLM 2幻觉率较高,MPT较低,但MPT同时产生不少空白响应。
- 高置信度误标
- 研究区分三种情况(众包错误LLM正确、众包错误LLM错误、众包正确LLM错误),揭示两者错误模式差异和重叠,有利于设计混合审查策略。
此节提供价值很高的质性分析指导模型改进和审查流程设计。[page::4,5]
---
2.8 可靠性指数(LLM-RelIndex)及应用
- 依据LLM-RelIndex排序,表现相对简单的约65%数据部分,LLMs准确率优于众包且逼近专家水平。
- 剩余35%的复杂样本中,LLMs置信度低,表现退步,需专家介入。
- 趋势图对应了zero-shot、few-shot和few-shot CoT提示,均呈现类似曲线,提示示例与推理过程的融入能稳步提升标注可靠度。
- 图示摘录:

图5显示,在数据集前65%可信标注区间内,GPT-4和PaLM 2各提示类型均优于人类投票标注准确率,随后因复杂样本占比提升准确率下降。
综上,LLM-RelIndex可辅助设计混合标注系统,实现自动与专家标注的有效结合,提升效率与质量。[page::5,6]
---
2.9 时间与成本分析
- 模型标注耗时与费用
- GPT-4对3598条样本标注费用为24-51美元,处理时长1-5秒/样本。
- PaLM 2费用最低,仅5-9美元,耗时类似。
- MPT Instruct成本29-55美元,受限于机器资源,时间稍高。
- 人工成本
- 基于美国最低工资估计,单标注员45秒处理一条样本,标注总成本约389美元,且众包通常需多位标注员参与,成本更高。
- 结论
- LLM标注成本显著低于人工众包,且时间效率高,支持其在大规模标注任务中应用。
本节财务数据和运行时间统计为实用偏导性应用提供强有力支持。[page::6]
---
2.10 讨论与建议
- 表现优势与不足
- GPT-4和PaLM 2综合表现优异,尤其PaLM 2在成本上的优势明显。
- MPT较小规模但可通过加入更多示例获得提升。
- 所有LLMs尚未达到专家水平,且表现受提示设计深刻影响。
- 建议
- 采用“自动标注+专家复核”混合策略,利用LLM-RelIndex筛查,降低专家工作量。
- 任务前期应进行小规模试验,选定最佳模型参数和提示。
- 熟练编写描述性、针对性强的提示词至关重要。
- 未来可尝试结合生成能力拓展关系集合,挖掘潜在金融关系,推动下游模型性能提升。
- 注意模型与众包者潜在的偏见差异,设计合理的去偏策略。
这些洞察为实际应用部署提供清晰路线图,强调人机协作和精细设计的重要性。[page::6]
---
2.11 局限性及未来展望
- 本研究只在单一数据集(REFinD,来源于SEC文件)及任务(关系抽取)中测试,缺少多元数据及任务的泛化验证。
- 计划增加针对不同金融文本来源(新闻、财报电话会议等)的测试,并探索数字推理、语义歧义、方向性辨析等更复杂财务问题。
- 正在优化LLM-RelIndex指标计算方法,尝试自动化相似度判定及多标签扩展。
- 稳步推进自动标注结果对下游模型训练性能的影响实验。
该部分展现自我反思意识及研究路线图,表明作者团队计划深入后续研究深化成果。[page::6,7]
---
2.12 结论总结
- 本报告首次系统验证了大型语言模型作为金融文本数据标注工具的可行性和效率优势。
- GPT-4和PaLM 2在准确度和稳定性上均优于众包者,极大缩短标注周期降低成本。
- 设计合理的提示词和采纳可靠性指数可提升标注质量并有效分配专家资源。
- LLM标注仍无法完全替代领域专家,建议采用混合标注策略,兼顾精度与效率。
整体而言,本文为将AI标注技术引入金融领域提供了理论与实证基础,对金融信息处理及自动化注释的发展具有重要价值。[page::7]
---
三、图表深度解读
3.1 图1(第0页)
- 内容说明
- 展示了金融文本中关系抽取示例。句子指出公司“Mississippi Power Company”成立日期有多个,实体标记及对应关系分类选项给出。
- 解读
- 专家标注判定此实体对无具体关系(该日期不正确成立日),而众包者错误选择成立日,反映金融标注任务中对细节理解的高要求及众包的局限。
- 意义联结
- 该示例形象体现了金融关系抽取的歧义和准确识别难度,对比模型表现需要聚焦细粒度语义理解。[page::0]
---
3.2 表1(第3页)
- 内容说明
- 各模型在不同提示及温度设置下的微平均F1分数和准确率,与MTurk众包者和专家作对比。
- 数据解析
- GPT-4零射和全指令提示下准确率最高,达68.4%。
- PaLM 2性能稍逊,表现跟GPT-4接近。
- MPT整体表现次于上述两个,最高仅28%。
- 众包者表现落后明显(38.6%),而专家为100%。
- 趋势说明
- 模型性能受提示设计强烈影响,尤其是MPT指令灵敏度强。
- 温度参数对大模型几乎无影响。
- 支持论点
- 强调大规模模型及精心设计的提示策略对于难领域自动标注的重要性。[page::3]
---
3.3 图3(第3页)
- 内容说明
- 折线图比较不同注释者(3个LLM,MTurk,专家)F1分数综合表现。
- 趋势总结
- 专家归为理想标杆100%,GPT-4和PaLM 2表现优于众包,MPT最弱。
- 显示大型LLM在准确率和一致性上的明显优势。
- 文本呼应
- 体现模型替代非专家角色的潜力和仍存在的差距。[page::3]
---
3.4 图5-7(第5-6页)
- 内容描述
- 各图按LLM-RelIndex从高到低排序,展示不同提示策略下模型和人类投票准确率随覆盖样本比例变化的曲线。
- 主要趋势
- 在数据集的约65%“高置信度”部分,LLMs准确率优于人类投票。
- 之后覆盖更多复杂样本时准确率下降,且皆低于人类。
- Few-shot和few-shot CoT提示普遍优于zero-shot,说明示例和推理过程帮助模型提高表现。
- 数据含义
- 降低专家审核负担,利用LLM标注的可信区间显著。
- 表达了有效任务分配和错标处理的实用策略。
- 图片展示



[page::5,6]
---
3.5 表2(第5页)
- 内容说明
- 汇总LLM在专家判定“无关系”样本上产生“幻觉”现象的比例。
- 解析
- PaLM 2在5-shot CoT条件下幻觉比例惊人达到80.7%,远高于其他情况,指出在依赖示例推理时会出现过拟合错误标签。
- GPT-4和PaLM 2幻觉率高于MPT,MPT相对保守。
- 影响
- 验证LLM存在创造性错误,需要特殊处理和过滤步骤防止误导标注和下游建模。
- 文本关联
- 该表支撑作者强调专家监督必要性。[page::5]
---
3.6 表3 & 图16(第4页、第16页)
- 内容
- 表3列出不同实验条件间的互标一致性,使用Cohen与Fleiss Kappa值衡量。
- 图16图形化展示同一对比,更直观显示模型一致性差异。
- 重要分析
- GPT-4一致性最高,PaLM 2次之,MPT最差。
- 提示改动对一致性影响显著,强调提示设计敏感。
- 应用价值
- 帮助界定LLM输出可信度,优化提示设计以稳定输出。[page::4,16]
---
3.7 错误分析定性示例(图4、表11、第18-20页)
- 图4说明
- 展现LLM和众包高置信度错误的实际文本样例,分为三类场景,形象揭示两者误差互补性。
- 混淆矩阵(第18-20页)
- 显示GPT-4在不同提示上对各个关系类别的预测分布,反映模型主要错误集中在哪几类,辅助识别语义模糊和模型偏差。
这些数据对于后续改进模型判别能力、提示策略和错误修正流程有重要指导。[page::4,17-20]
---
四、估值分析
报告中无涉及金融估值方法或估值计算,故不适用本节分析。
---
五、风险因素评估
- 模型幻觉风险:LLMs可能产生“幻觉关系”,带来标签错误风险,尤其在NO/OTHER RELATION标签上明显,高比例幻觉样本需严格排查。
- 语义模糊风险:对相似关系区分困难,导致标注误差提高,影响数据质量。
- 一致性波动风险:MPT与其他模型在随机因素影响下结果不稳定,提示应用中需谨慎。
- 数据集局限风险:研究仅基于SEC文件,金融其他文本源泛化能力未知,可能限制结果应用。
- 专家依赖风险:LLMs不能完全替代专家,需持续人机协作避免系统误导。
报告对以上风险均有识别,并强调通过合理提示设计、指标筛查和专家复核进行部分缓解。[page::0-7]
---
六、批判性视角与细微差别
- 潜在偏见
- LLM训练数据包含不同领域,可能带入非金融领域的偏见,特别是在关系理解上可能存在系统性差错。
- 幻觉和过度自信的表现意味着模型推断不够谨慎,存在过拟合示例或推理的风险。
- 假设稳健性
- 仅靠REFinD单一数据集限制了结论代表性,多数据源验证缺失可能影响实际推广。
- 报告未实验证明LLM生成的标签对下游模型的提升作用,结果的实际业务价值还有待验证。
- 内部细节矛盾
- 虽提示几种prompt都对模型表现有影响,但具体哪种最优尚无定论,且zero-shot在某些情况下表现优于few-shot,提示设计仍需更多系统探索。
综上,本研究虽全面但仍有改进空间,未来需完善多样化数据、多任务验证及下游应用实证。[page::6,7]
---
七、结论性综合
本报告通过严谨的实验设计和多维度评估,首次系统证明大型语言模型在金融关系抽取任务中作为自动标注者的巨大潜力。特别是GPT-4和PaLM 2这类超大模型,凭借良好的准确率、一致性和可靠性指标,能够显著优于传统非专业众包者,且在时间成本上具备显著优势。
数据表明:
- 性能排位:专家 > GPT-4 ≈ PaLM 2 > 众包 > MPT Instruct
- 可靠性指标(LLM-RelIndex)帮助精准筛选可信标注,支持“自动标注+专家复核”混合策略应用。
- 错误来源包括语义模糊、标签混淆及模型幻觉,需结合提示工程与后期规则过滤加以减少。
结合时间成本分析,LLMs显著降低人工标注费用并提高速度,适合大规模金融数据处理。提示设计(prompt engineering)及示例引入对小模型尤为关键,同时大模型表现稳健性高,可实现自动标注任务的主力应用。
报告建议未来进一步拓展多数据源、多任务研究,完善LLM质量评估指标,探索生成式标注潜力,提高标注本身的多样性和灵活性。与专家专家融合,推动金融自然语言处理领域注释体系智能化发展。
---
总之,该研究为金融文本自动标注引入LLMs开辟了新路径,提出了创新的量化指标和混合策略,揭示了模型效能局限与挑战,既具学术研究价值,又对实际工具构建具有重要指导意义。
---
参考图表精华展示
- 图1——金融关系抽取示例,体现标注难点

- 图3——各注释者F1分数对比

- 图5——Zero-shot LLM-RelIndex准确率趋势

- 图6——Few-shot LLM-RelIndex准确率趋势

- 图7——Few-shot CoT LLM-RelIndex准确率趋势

---
以上深度分析基于报告所有主要内容与图表,力求全面详尽,助力理解大型语言模型在金融数据自动注释潜力和局限,为金融人工智能研究与实际部署提供坚实理论与实证支持。[page::0-7]