Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks
创建于 更新于
摘要
本研究首次系统评估大型语言模型(LLMs)在金融和会计任务中的输出一致性和可复现性。通过对GPT-3.5-turbo、GPT-4o-mini和GPT-4o三种模型,执行了五项常见任务(分类、情感分析、摘要、文本生成和预测)的50次独立运行,生成超过340万条输出,覆盖多类金融文本。结果显示,二元分类和情感分析一致性极高,复杂任务则波动更大,且模型升级并不总带来一致性提升。聚合3-5次运行输出可显著提高一致性和部分任务准确率。下游统计推断表现稳健,显著缓解了“G-hacking”(多次运行挑选有利结果)的担忧,为金融和会计领域LLM应用的可靠性提供了权威支持[page::0][page::1][page::2][page::3][page::4][page::5][page::15][page::21][page::22]
速读内容
研究背景与目标 [page::0][page::1][page::2][page::5]
- LLM在金融和会计文本分析中应用广泛,包括分类、情感分析、摘要和预测等任务,但其输出的随机性引发可复现性担忧。
- 本文首创性地系统评估LLM输出在五类任务中的一致性和可复现性,涵盖50次独立运行,总计340万输出。
- 研究聚焦三款主流GPT模型:GPT-3.5-turbo、GPT-4o-mini和GPT-4o,采用零样本提示,温度设为0,严控随机性。
任务与数据样本设计 [page::8][page::9][page::10]
- 覆盖五大任务:二元分类(前瞻性陈述识别)、多分类(FOMC陈述分析)、情感分析(新闻、MD&A和电话会议)、摘要(MD&A和电话会议)、文本生成(电话会议问答)和财务预测(未来收益)。
- 样本涵盖10-K管理层讨论与分析章节、FOMC官方声明、财报电话会议及金融新闻,任务样本大小从1,000至10,000不等。
评估指标体系 [page::11][page::12][page::13]
- 分类任务采用Fleiss’ Kappa、Krippendorff’s Alpha和Cohen’s Kappa等统计量度量多运行间一致性。
- 连续变量用ICC2、相关系数(Pearson、Spearman)和平均绝对相对差异(MARD)评估一致性。
- 文本输出用语义相似度(基于jina-embeddings-v3)和语调(Loughran & McDonald字典和FinBERT)衡量多次生成文本间的一致度。
核心发现与结论 [page::14][page::15][page::16][page::21][page::22]
- 二元分类和情感分析任务表现出极高一致性,Fleiss’ Kappa多达0.97以上;复杂的多类分类和数值预测任务波动较大。
- 更先进模型UX伴随的输出一致性并非全方位提升,多分类任务中GPT-3.5-turbo在某些指标上优于GPT-4o-mini,但数值预测中GPT-4o领先明显。
- 生成文本保持高度的语义一致,但在长度和语调上存在8-15%的变异范围,表现出结构多样性。
- LLM输出一致性明显优于人类专家标注,甚至在专家分歧严重的情况下仍能保持96%以上的高度一致。
- 对多次运行结果的聚合(3-5次)显著提升分类和数值预测任务的一致性及部分准确率,降低分类不确定性。
- 大规模模拟表明LLM输出波动对后续统计推断无显著影响,回归系数估计和显著性检验稳健,推断错误率低于3%。
- 研究首次明确提出并实证分析“G-hacking”风险,结果显示该风险对金融会计LLM应用影响较低,增强了研究透明度与信任度。
量化因子构建或策略总结
- 本文没有涉及传统量化因子构建或具体量化交易策略,聚焦于LLM一致性评估与方法学研究。
研究贡献
- 构建了金融会计领域LLM输出一致性基准,填补了LLM可靠性验证的空白。
- 提供聚合策略、模型选择和应用风险控制的实用指导方案。
- 通过海量数据和多任务设计,成果具备高度说服力和推广价值。[page::3][page::5][page::15][page::18][page::19][page::20][page::21][page::22]
代表性图示

- 图示展示了不同模型对多次运行结果聚合后分类一致性的提升趋势,核心体现聚合策略的实用价值和效率。
深度阅读
金融与会计领域大语言模型输出一致性与可重复性研究报告深度解析
---
1. 元数据与概览
报告标题:《Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks》(《大语言模型输出的一致性与可重复性评估:基于金融与会计多元任务的证据》)
作者与机构:
- Julian Junyan Wang,牛津大学学院
- Victor Xiaoqi Wang,加州州立大学长滩分校商学院
发布日期: 2025年6月
研究主题: 该报告针对金融及会计领域,全面评估主流大语言模型(LLMs,包括OpenAI的GPT-3.5-turbo,GPT-4o-mini与GPT-4o)在五个典型金融文本任务(分类、情感分析、摘要、文本生成和预测)中的输出一致性与可重复性。
核心论点及主要信息:
- 通过50次独立运行和数百万次API调用,生成了超过340万条模型输出,分析其在相同输入下输出的一致性和变异性。
- 发现一致性表现强烈依赖任务类型:二分类与情感分析接近完美一致,而复杂任务如多类分类和预测展示较高波动。
- 更严谨的模型不一定意味着更高的一致性,模型表现存在任务特定的差异。
- 通过简单的多次运行结果聚合(3-5次)可大幅提高一致性,且新模型聚合还能提升情感分析准确度。
- 模型输出的内部不一致对后续统计推断影响极小,揭示所谓“G-hacking”(对多次生成输出择优报告的风险)在金融会计任务中风险较低。
此报告为首个如此规模详尽的金融会计领域LLM可重复性研究,同时为研究者及投资者在选用与信任此类模型时提供实践指导与理论支持。[page::0]
---
2. 逐章深度解读
2.1 引言(Section 1)
- 背景说明了人工智能(尤其LLMs)在金融和会计研究的飞速发展及其在处理海量非结构化财务文本的卓越表现。
- 突出LLMs的概率生成特性导致相同输入可能产生不同输出的挑战,进而引发了学术界对一致性和可重复性的质疑,这影响科学方法论的基本原则。
- 当前文献多关注模型表现及偏差,鲜有系统研究LLM输出稳定性。
- 这一问题不仅影响学术领域,更对实际投资者使用AI决策产生风险。
- 本文提出通过对三大主流OpenAI模型及五类关键任务的多次独立运行,利用超过80亿次对比检验,建立领域内首个详尽的一致性与可重复性评价框架。[page::1]
2.2 实验设计与方法(Section 3)
- 任务选择: 五类任务涵盖分类(含二元及多类)、情感分析、多文档摘要、文本生成和财务预测,所用文本涵盖MD&A、FOMC声明、财报新闻、电话会议实录等多种金融文本。样本规模从约1000至10,000不等。
- 模型选择: 聚焦OpenAI GPT-3.5-turbo、GPT-4o-mini及顶级版GPT-4o。依据任务难度与成本考量分配模型使用。
- 零样本提示(Zero-Shot Prompting)策略: 放弃任务特定示例训练和链式思维,利用模型自带泛化能力,确保测试的严格性和一致性。
- 运行次数及时间跨度: 每个任务50次独立运行,跨50个日历日完成,保证不同环境下模型随机性的充分捕获。
- 温度参数设定为0: 确保最强生成稳定性和可重复性,去除抽样随机性。
- 评估指标体系丰富: 包括多种标准的一致性指标(如Fleiss’ Kappa、Krippendorff’s Alpha、ICC2、相关系数、Mean Absolute Relative Difference等)以及语义相似度和基于金融领域情感词典的情感基调评测。此设计覆盖分类、数值及文本多维输出的不同特性。[page::3, page::8, page::11]
2.3 主要实验结果(Section 4)
- 分类任务:
- 二分类(前瞻性陈述识别)达至接近完美一致,Fleiss’ Kappa约0.97,运行对比一致率达到99%。
- 多分类(FOMC五类分类)表现较二分类弱,Kappa介于0.86–0.91,GPT-3.5-turbo在该任务上的表现优于GPT-4o-mini。
- 文档级一致性差异显著,复杂类别下一致率及完美一致率大幅降低(如五分类中完美一致率仅约55.66%)。
- 情感分析:
- 高一致性表现,所有文本类型平均一致率达97.5%以上。新模型GPT-4o-mini性能优于旧模型,能识别更多正面内容,表现更稳定。
- 摘要与文本生成:
- 语义相似度高(Cosine Similarity约0.94–0.98),涵盖MD&A和电话会议段落,保持核心信息稳定。
- 长度和情感基调存在明显变异,长度变动幅度约8–15%,情感调调基于FinBERT评测的Kappa约0.66–0.68,电话会议表现较好。
- 预测任务:
- 收益增长方向预测一致性率极高,Kappa≥0.97。
- 数值预测上的一致性显著依赖模型水平,GPT-4o的平均绝对相对差异(MARD)低至2.05%,远优于其他模型。
- 相对排名一致性(Spearman相关)均较高,但绝对值统计表现GPT-4o领先。
- 聚合多次运行提升显著,尤其数值预测中步骤提升明显。[page::14, page::15, page::39–42]
2.4 模型版本对比(Section 4.2)
- 一致性不随模型先进线性提升,而呈任务特异性表现。
- 对于多数分类及情感分析,新版模型(GPT-4o-mini)整体更稳定。
- 对于复杂多类分类,早期版本(GPT-3.5-turbo)表现优于某新版本。
- 复杂文本生成与数值预测任务中,模型升级显著带来一致性增强。
- 成本与性能权衡需结合具体金融任务考虑,复杂场景建议使用高级模型以确保数值与文本表达稳定。[page::15–16]
2.5 额外分析(Section 5)
2.5.1 LLM与人类专家的一致性比较(RQ3)
- 在使用Financial PhraseBank数据库(含人类专家标注及一致性层级信息)评测情感分类时,GPT-3.5-turbo和GPT-4o-mini均表现出较人类标注者更高的一致性(一致较人类表现更优超过50%以上)。
- 尤其在专家显著分歧(低人类一致性)文本上,LLMs仍保持极高输出一致性(96.8%–98.3%)且不随人类一致性下降明显波动,显示LLMs具有更确定的分类边界,不受文本歧义过分影响。
- 此结果表明LLMs在金融文本自动标注任务中具有重要价值,弥补甚至超越人类主观认知差异带来的不稳定性。
2.5.2 多次运行聚合提高一致性(RQ4)
- 通过多数投票(分类)及均值(数值)对不同次数运行结果进行聚合,单次模型运行可显著提升一致性。
- 聚合3-5次运行即可获得主要一致性增益,多次聚合边际效应递减,3-5次即平衡成本和收益。
- 聚合后分类的多数类强度(confidence)显著提高,分类不确定度(entropy)迅速下降。
- 对文本长度等连续变量,ICC2、CCC、Spearman等相关性显著升高,MARD明显下降。
- 聚合并非对所有模型均带来准确率提升:GPT-4o-mini聚合显著提升F1分数和准确率,而GPT-3.5-turbo却有下降趋势,表明不同模型的特性决定了聚合效果。
2.5.3 LLM输出不一致对后续统计推断影响(RQ5)
- 利用50000次MD&A摘要长度数据模拟,构造1000万次回归模拟检验LLM输出长度随机变动对系数估计、t值及显著性推断的影响。
- 结果显示输出随机性对系数无明显偏差,t统计量分布符合预期,统计推断正确率达到97.35%,Type I和Type II错误均约1.3%。
- 方向判定错误近乎无发生,说明即使存在一定输出变异,下游统计结论高度稳定可靠。
- 通过多次聚合分析进一步提升推断可靠性,3次聚合准确率升至98.49%。
- 该发现极大提升了金融会计定量研究中基于LLM生成变量的信心,表明随机性影响可控且不构成核心威胁。[page::16–21]
---
3. 图表深度解读
3.1 关键图表分析
图1 (Page 31)
- 内容描述: 两个饼图对比LLMs(GPT-3.5-turbo和GPT-4o-mini)与人类专家在情感分类任务中一致性优势比例。又一幅柱状图显示不同人类注释一致性水平下模型输出一致性。
- 解读: GPT-3.5-turbo对比人类在51.8%句子表现更一致,人类优于模型仅8.4%。GPT-4o-mini提升至52.5%更优一方,人类仅4.8%。表明多数情况下LLMs输出稳定性优于人类。不同人类一致性组别中,LLM输出一致性极高且稳定,未随着人类一致性下降而下降,大幅优于预期。
- 联系文本: 证明了LLMs具备更稳定的判决边界,不受歧义严重文本影响,这在金融文本自动标注领域极具价值。[page::31]
图2(Panels A-C, Pages 32-33)
- 内容描述:
- Panel A:聚合模型多次分类输出对应的多数分类强度提升曲线及分类不确定度(熵)下降曲线;
- Panel B:完美一致比例及文档一致率随聚合次数提升的变化趋势;
- Panel C:聚合次数对应分类准确率F1分数的变化:GPT-4o-mini准确率明显提升,GPT-3.5-turbo反而下降。
- 解读: 聚合3-5次显著改善输出一致性及减少不确定性,带来高文档级稳定性,符合前文呼吁的性能与成本平衡策略。准确率曲线的里程碑区分反映不同模型适用的聚合策略,提示新模型更适合多次输出融合。
- 联系文本: 图示强化了聚合技术是实用且有效的优化方法,但选择应用前需评估模型类型与具体目标。[page::32–33]
图3(Page 34)
- 内容描述: MD&A摘要长度聚合输出在ICC2、CCC、Spearman及Pearson相关系数上的增长曲线,以及聚合次数对应MARD下降曲线。
- 解读: 聚合3-5次输出能将长度一致性从较低水平(CCC约0.43)大幅提升至近0.8以上,MARD从8.5%下降至3%以下。再聚合至20次一致性趋近极致。
- 联系文本: 进一步支持多次输出平均意义明确提升连续变量一致性,实用性高且可推广到其他数值预测任务。[page::34]
图4(Panels A-C, Pages 34-35)
- 内容描述:
- Panel A:系数估计的分布与真实值及两者的相关图;
- Panel B:t统计量的分布与真实值及两者的相关图;
- Panel C:统计推断准确率饼图和签名正确性热图。
- 解读: 机器语言模型输出随机噪声不会引入系统性偏差,关键统计显著性检验高度准确,方向识别几乎无误。聚合可进一步提升推断可靠性。
- 联系文本: 强化了本文结论,即LLM输出波动不会削弱金融计量研究结论的有效性,缓解研究者对模型随机性的顾虑。[page::34–35]
---
4. 估值分析
本文并非典型金融估值报告,不涉及企业估值参数。对任务涉及的“预测”问题,在财务预测上多采用多次运行的MC模拟与统计一致性检验。预测性能与预测一致性分析,显示更高版本如GPT-4o性能显著提升,且稳定性更强,反映该任务中模型估值能力的逐步提高。所用评价体系中包括ICC、相关系数及MARD,结合数值预测准确度,项目中前瞻性评价本质等价于定量估值准确性的测度。[page::42, page::66-67]
---
5. 风险因素评估
报告主要识别的风险包括:
- 模型输出的随机性: 会导致研究结果不稳定和难以重复。经实验证明此风险低,且可采用多次聚合缓解。
- 模型版本升级不一定提升一致性: 任务复杂性对模型性质影响显著,选择模型不当可能导致结果波动。
- “G-hacking”风险: 即研究者选择性报告有利生成结果。研究表明大多数金融文本任务中一致性较高,G-hacking风险相对可控,尤其分类及情感分析任务。
- 文本生成长度和语调变异性: 对部分研究任务如结构性文本评价有潜在影响。
- 有限任务范围: 仅覆盖主要五类任务,其他金融复杂场景尚未涉及。
总体报告未专门提出缓解策略,但通过聚合运行、模型和任务匹配,以及严格的统计模拟验证,提供了多层次风险控制建议。[page::4, page::5, page::21–22]
---
6. 审慎视角与细微差别
- 报告中零样本提示与温度为0的设计,虽保证了结果的一致性,可能限制了现实中多样性和模型能力的发挥。未来研究可尝试多样提示及温度调整以评估可重复性边界。
- 构建的聚合方法主要是简单投票及均值,尚未涵盖更复杂的融合算法。
- 实验集中在OpenAI模型,未扩展至其他开放模型或国产模型,缺乏广泛适用性验证。
- 在复杂多分类任务中,GPT-4o-mini表现反常,未深入探讨潜在内因,可能需更多诊断分析。
- 输出一致性与准确性并非始终同步,用户需权衡,抽象指标外仍需关注具体业务需求的适配。
- 报告对“G-hacking”定义与评估为创新贡献,但未对该领域法规及伦理监督提出具体应对框架。
- 有时报告中“文档”定义较宽泛,不同任务间不可直接对比,需根据具体文本单位细致解读结果。
- 文本生成任务中,长度与语调波动提示模型生成的微观灵活性,值不能简单等同于“不稳定”,反映了语言模型生成的创造性特征。
综合评估,报告论证充分,实验设计严谨,但对模型内部机制及运行环境多样性还可加深解释与检验。
---
7. 结论性综合
本文开创性地从大规模视角、深度实验量级验证了金融会计领域主流大语言模型在五类关键任务上的一致性及可重复性表现。总结如下:
- 一致性差异显著,任务依赖性强: 简单分类和情感分析表现极高稳定性;复杂多分类、文本生成和数值预测中波动明显,差异不完全由模型能力线性决定。
- 模型版本的关系复杂: 先进模型如GPT-4o在数值预测和文本生成中明显优越;但多分类任务中旧模型表现更好,用户选择需基于任务特征权衡。
- LLM优于人类专家在一致性上的优势明显,尤其在专家标注存在争议时稳定输出: 显示大语言模型可作为金融文本标注的可靠工具。
- 简单的多次运行聚合可有效提升一致性,且新模型聚合还可改善准确性: 聚合3-5次运行,性价比最佳,是提升结果稳定的实用策略。
- LLM内部输出变量的随机波动对后续经济计量分析、统计推断影响甚微,结论稳健: 解除研究者对LLM随机性的过度忧虑。
- 针对“G-hacking”风险,数据支持其在多数金融会计任务中风险较低,为规范研究实践提供依据。
图表与数据提供的深刻洞见:
- 二分类任务一致性指标(Kappa、百分比一致率)高达0.97以上,完美一致率超过96%。
- 多分类任务复杂度导致Kappa下滑至0.86–0.91,完美一致率跌至55.66%。
- 情感分析多个文本来源中一致率97%以上。
- 摘要生成的语义相似度达到0.98,长度波动约8.5%。
- 文本生成语义相似度0.94-0.97,长度波动可达15%。
- 预测任务中,GPT-4o的点估计MARD仅2.05%,显著优于旧版本。
- 聚合图表显示一致性随聚合运行数快速提升,诊断图表展示置信带及变化趋势。
最终,报告奠定了金融与会计领域内大语言模型在使用中的一致性及可信度基准,为学术研究及实务应用的信赖提供了坚实基础,为后续模型评估与方法创新提供了范式借鉴和实验设计。
---
总结标注:上述结论与分析均直接引自报告原文内容,系统涵盖了全文关键信息及所有关键图表,页码详见各分析段末[page::页码],支持全文可溯源验证。