EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements
创建于 更新于
摘要
本论文提出EDINET-Bench,这是首个自动构建的日本财务年报大语言模型评估基准,涵盖会计舞弊检测、盈利预测和行业分类三大复杂任务。利用过去十年日本企业公开的年报数据集,实验证明现有最先进LLM在这些任务上表现仅略优于逻辑回归,显示LLM在复杂财务分析领域仍面临较大挑战,亟需专门的领域适配和进一步研究[page::0][page::1][page::3][page::6][page::7][page::10].
速读内容
研究背景与动机 [page::0][page::1]
- 现有财务相关LLM基准多聚焦于简单任务,且多为英语或中文市场,缺乏专门针对日本财务数据的复杂任务基准。
- 日本作为世界第四大经济体,其公开的财务数据未被充分利用,构建专门针对日文财报的基准具有重要价值。
- 围绕会计舞弊检测、盈利预测和行业预测三大任务,构建全面的金融领域评测体系。
EDINET-Bench数据集构建与任务设计 [page::2][page::3][page::4][page::5]
- 数据来源:日本金融厅公开平台EDINET,涵盖2014至2025年约4万份企业年报及修正报告。
- 会计舞弊检测:基于修正年报文本自动判定欺诈,聚集668份欺诈及700份非欺诈样本,最终有效数据共约1089条,呈二分类任务。
- 盈利预测:预测次年盈利变动方向,采样1000家公司连续两年对报表构建数据集,分增减两类,二分类问题。
- 行业预测:将行业标签整合为16个大类,采样约496家公司,多分类任务。
- 三个任务标签自动赋予,支持未来数据动态更新。
实验设计与模型评测 [page::5][page::6][page::7]
- 测评对象包含GPT-4o、Claude系列、多款DeepSeek模型及逻辑回归等基线。
- 输入层级从关键财务指标摘要(Summary)到全部四大财务报表及文本,评估文本信息增益。
- 评测指标包括ROC-AUC、MCC(舞弊检测、盈利预测)和分类准确率(行业预测)。
- 采用零样本预测模式,固定温度,重复三次实验。
主要实验结论 [page::6][page::7][page::8]
- 会计舞弊检测:LLM表现虽有文本输入提升,最佳模型Claude 3.5 Sonnet带文本ROCAUC约0.73,仅略优于简单逻辑回归0.68,挑战显著。
- 盈利预测:整体模型预测表现低下,最佳ROCAUC不超过0.61,文本信息无明显有效提升,反映任务难度。
- 行业预测:准确率较高,多模型可达0.41,任务中级难度,财务信息对行业类别具有较强区分力。
- 逻辑回归特征重要性显示大公司特征影响模型判断存在偏差。
- 结合混淆矩阵分析,文本信息提升了欺诈样本识别率。
任务局限与未来方向 [page::8][page::9][page::10]
- 单年报信息限制了模型性能上限,实际审计依赖多渠道与机密信息。
- 标签存在噪声,部分“欺诈”可能涵盖非恶意更正。
- 可能存在训练数据泄露污染,但可通过持续扩展基准数据队列规避。
- 报表解析不一致性可能导致误判,需改进数据处理与模型指令设计。
- 未来研究可设计多阶段、多模态代理流程,提升LLM对财报复杂性的适应能力。
- 社会伦理风险及公平性须持续关注,防止误用及偏见放大。
数据集与工具公开价值 [page::1][page::10]
- EDINET-Bench及自动化数据工具edinet2dataset已开源,支持日本财报领域持续研究与模型迭代。
- 该基准推动LLM在专业财务语境中的发展,为复杂财务分析提供了系统评测平台。
重要图示摘要

- 日本16大行业公司数量分布,展示数据多样性,为行业预测任务提供坚实基础。

- 会计舞弊检测混淆矩阵,展示文本输入提升模型识别欺诈样本的能力。

- 行业预测混淆矩阵,展示部分行业分类效果及模型区分能力。
深度阅读
EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements — 详尽分析报告
---
一、元数据与报告概览
- 报告标题:EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements
- 作者与机构:Issa Sugiura 等,所属机构包括 Sakana AI 和京都大学
- 发布日期:2025年左右(参考文献时间至2025年)
- 主题:
- 利用日本电子投资者信息披露网络(EDINET)构建金融领域复杂任务的基准测试数据集
- 评估大型语言模型(LLMs)在会计欺诈检测、盈利预测、行业预测等复杂金融分析任务中的表现
- 强调日本金融数据的独特性及其在LLM金融分析中的应用价值
- 核心论点:
- 当前金融领域缺乏针对日本市场的复杂金融任务基准数据,制约LLM在该领域的应用与发展。
- 本报告推出了EDINET-Bench,一个自动化构建、面向复杂金融任务的公开日本金融基准。
- 评测显示,尽管部分LLM表现优异,但在欺诈检测和盈利预测等关键任务上表现依然仅略优于传统逻辑回归,存在明显提升空间。
- 呼吁针对金融领域开发领域专属的适配方法和创新的多模态/代理技术。
- 作者传达的主要信息:EDINET-Bench及其构建工具支持开放研究,促进金融领域LLM研究持续进步,尤其是提升复杂财务分析能力。
---
二、逐节深度解读
1. 引言与背景(Introduction & Background)
- 关键论点:
- LLM在多领域表现卓越,但现存财务基准多聚焦简单任务如信息抽取和问答。
- 财务领域更具挑战性的问题如会计欺诈检测和盈利预测对LLM能力提出了更高要求。
- 日本经济体量全球第四,然而相关的AI财务基准严重不足。缺乏日本市场数据阻碍技术进步。
- 现有财务基准多为英文或中文,更新受限,且无自动标注机制。
- 证据与推理:
- EDINET作为日本公开披露平台,提供丰富年报数据,适合构建持续更新的基准。
- 对比国际财务基准和文献,确认日本市场的空白。
- 利用LLM做标注实现自动化,与人工设计问题形成显著对比。
- 重要数据点:
- 引用多个财务基准(FinQA, ConvFinQA, FinanceBench等)均以英汉两种语言为主。
- EDINET数据覆盖时间跨度达10年,涵盖约4,000家上市公司。
- 相关金融专业概念:
- 会计欺诈检测:识别财务报表中蓄意作假的行为,非常依赖文本与数字数据的综合分析。
- 盈利预测:问的是未来盈利的方向或规模,难度高,依赖于复杂的财务指标变化与市场动态。
- 行业预测:基于财务数据为公司分类行业,侧重识别财务数字的行业特点。
---
2. EDINET-Bench构建(Construction of EDINET-Bench)
- 关键步骤:
- 开发了
edinet2dataset
工具,自动调用EDINET API下载并解析年报,提取TSV格式结构化数据。 - 构建庞大的EDINET-Corpus,数据量达约4万份年报。
- 自动根据任务要求,从修订年报文本里利用LLM筛查是否与欺诈相关,实现标签自动化。
- 构建三个主任务数据集:
1. 会计欺诈检测 :二元分类,欺诈报告以修订报告中标注欺诈为准,共训练集865份,测试224份。
2. 盈利预测 :二元分类,判断未来盈利变动方向,共1,000份样本,基于连续两年份年报对比。
3. 行业预测 :多分类任务,基于 16 类统一归约后的行业标签,496份样本,不拆训练测试集。
- 推理依据:
- 通过文本抽取及LLM分析应对数据标注难题确保标签合理。
- 采用年度连续样本对确保盈利预测的时序真实性。
- 行业重分类保持标签稳定,也便于提升任务解释性。
- 关键数据点:
- 欺诈数据集经自动标注修订报告中,最终有534份欺诈、555份非欺诈样本。
- 盈利预测样本量:549训练,451测试,总计1,000。
- 行业预测样本均匀分布于16行业,确保任务均衡。
---
3. 评测设计与实现(Evaluation)
- 基线模型:
- 多达7个前沿LLM(OpenAI、Anthropic、DeepSeek家族),均在零样本(zero-shot)条件下评估,温度设为0避免随机性。
- 传统机器学习模型:逻辑回归,采用Summary部分结构化数据。
- 盈利预测任务增加了简单的“单纯跟随往年趋势”模型作对比(Naive prediction)。
- 输入信息配置:
- 三种输入配置:
1. Summary(摘要)
2. Summary + Balance Sheet + Cash Flow + Profit & Loss(BS+CF+PL+Summary)
3. 全数据(前述+Text文本信息)
- 评价指标:
- 会计欺诈与盈利预测:ROC-AUC(曲线下面积),MCC(马修斯相关系数)。
- 行业预测:准确率。
- 成本与时间:
- 报告文本约3万标记,生成输出约500标记。
- 使用Claude 3.7 Sonnet估计每份报告成本约0.1美元,处理时间约10秒。
---
4. 评测结果分析(Evaluation Results)
4.1 会计欺诈检测
- 表现总结:
- 全部LLM均表现有限,最高ROC-AUC约0.73(Claude 3.5 Sonnet,加上文本信息),仅稍微优于逻辑回归的0.68。
- 添加文本信息明显提升部分LLM表现,显示LLM能有效利用文本特征辅助判断。
- 逻辑回归依靠部分关键财务指标亦表现坚实,抗衡目前顶尖LLM。
- 具体洞见(基于表7和图3、4):
- 逻辑回归依赖“综合收益”(Comprehensive Income)和“总资产”判定较多大公司非欺诈、小公司欺诈的偏差。
- Claude 3.7 Sonnet在多输入配置下混淆矩阵显示文本帮助平衡了对欺诈和非欺诈的分类,改进了准确率。
4.2 盈利预测
- 表现总结:
- 大部分LLM预测表现较差,最佳ROC-AUC仅0.61(Claude 3.7 Sonnet),且引入文本信息反而不提升性能。
- 说明盈利预测基于单个年度财报信息十分困难,文本部分可能包含干扰信息。
- 逻辑回归和简单的“跟随去年趋势”基线表现相近,反映任务内在复杂性。
4.3 行业预测
- 表现总结:
- 任务相对简单,所有模型准确率均明显高于随机猜测。
- 加入更多结构化财务数据(BS, CF, PL)均明显提升准确率。
- Claude 3.5 Sonnet达到最高41%准确率。
- 文本信息未使用,因包含明显行业标签而可能导致信息泄露。
- 原因推断:
- 不同行业财务结构差异显著,模型可从资产负债表和现金流特征中识别行业特征。
---
三、图表深度解读
图1 — EDINET-Bench流程示意图(页面0)
- 展示了自动下载EDINET年报,自动提取数据并标注,构建三大任务基准的流程。
- 说明该项目自动化、可扩展的优势。
表1 — TSV样本数据(页面2)
- 展示年报中关键财务指标提取样例,体现了结构化解析结果(销售额等)。
- 重要在于展示数据来源真实且结构化,利于后续算法处理。
表2 & 图2 — 年度报告量及行业分布(页面3)
- 表2显示2014-2023年,每年报告量均在约4000份,总计41691份,数据量大,覆盖全面。
- 图2显示行业公司数量分布,IT与服务行业遥遥领先(1634家),其他行业数量均低于500。
- 表明EDINET覆盖产业广泛,数据多样,有利于行业多任务学习。
表3-5 — 任务样本类别分布(页面4)
- 表3:欺诈检测训练集865条,非欺诈略多;测试集规模适中,分类平衡。
- 表4:盈利预测的涨跌样本数量较为均衡,偏向盈利增加。
- 表5:行业预测16大类样本均匀,分类合理。
表6 — 任务性能综合表(页面7)
- 根据不同LLM与输入配置,性能数据如ROC-AUC和MCC展现清晰对比。
- 体现:
- 欺诈检测融入文本效果优于仅用财务摘要。
- 盈利预测普遍难以提升。
- 行业预测任务准确率明显提升。
表7 — 逻辑回归特征重要性(页面8)
- 总资产和综合收益排名靠前,非欺诈告警倾向于资产规模大的公司可能反映一定规模偏好。
- 说明逻辑模型关键假设及偏见点。
图3/4 — 欺诈检测混淆矩阵(页面8)
- 图3显示逻辑回归误判欺诈较多,图4中的Claude 3.7 Sonnet引入文本后分类准确度明显提升,误分类减少。
图5 — 行业预测混淆矩阵(页面9)
- 各模型随输入信息丰富准确率提高,特定行业间混淆较少,验证了财务数据制造行业特征的可能性。
图6 — 按年份划分的欺诈检测性能趋势(页面9)
- 不同财政年度数据性能波动且未出现旧数据明显更优情况,排除了部分训练数据污染可能。
图17/18 & 图19/20 — 欺诈检测示例与多模型混淆矩阵(页面18-20)
- 多模型混淆矩阵更细致显示各模型对欺诈/非欺诈的判别强弱。
- Claude 3.7 Sonnet和GPT-4o基于财务与文本数据的欺诈分析深刻,体现模型能对异常财务模式给出合理解释。
图21/22 & 图23/24 — 盈利预测混淆矩阵与示例分析(页面21-23)
- 盈利预测任务中混淆矩阵明显偏斜,增加倾向预测更准确。
- Claude 3.7 Sonnet和GPT-4o的财务分析文本体现出对盈利趋势的基本理解,但难以避免误判。
图25 & 图26/27 — 行业预测混淆矩阵及样本分析(页面24-25)
- 不同模型对行业分类的混淆矩阵显示多为对角线集中。
- 具体样本分析显示模型能通过财务结构和现金流模式推断行业,但偶有偏差。
---
四、估值分析
- 报告未涉及具体估值计算,但涉及会计欺诈和盈利预测任务本质上关联公司价值预测。
- 采用多任务标准分类评估指标(ROC-AUC, MCC, 准确率),未展开DCF等传统估值模型,评估重点在模型对财务信息理解。
- 强调该研究聚焦LLM处理财报结构化文本能力,而非传统财务估值技术。
---
五、风险因素评估
报告指出若干风险因素:
- 任务本身的内在困难
- 利用单一年度公开财务报表预测欺诈或盈利,缺乏保密的内部信息,导致性能天花板。
- 标签误差(标注质量风险)
- 欺诈标签依赖修订报告和LLM自动判定,存在未被发现欺诈以及误判的可能。
- 数据污染风险
- 因数据公开,LLM可能在训练时接触测试数据,导致评估偏差;但基准具备更新能力可缓解。
- 解析一致性风险
- 由于公司间报告格式差异,解析导致信息缺失或错误,可能引发模型误判。
缓解策略:
- 持续更新基准,剔除污染数据。
- 明确提醒模型对缺失信息的处理方式。
- 结合多模态和代理式模型等扩展思路,增强能力。
---
六、审慎视角与细微差别
- 报告客观呈现LLM当前局限,强调虽然LLM能初步辅助,但仍远未达到人工审计员精准水平。
- 自动标注带来创新同时伴有误判风险,依赖LLM判断修订原因具有“幻觉”风险。
- 逻辑回归的特征偏差暗示“规模放大”可能成为误导因素,提示未来需要更精细的特征工程。
- 不同LLM模型性能波动较大,且文本信息在盈利预测任务中作用有限,暗示需要任务特定优化。
- 任务设定虽符合实际应用场景,但限制了模型利用更多历史或外部数据的潜力,建议未来拓展任务设定。
---
七、结论性综合
EDINET-Bench成功构建了一个覆盖三大复杂金融任务的、日本市场特色明显的LLM评测基准,涵盖约4万份年报数据,并实现自动化标签标注,为财务AI应用提供了宝贵资源。
- 性能洞察:
- 当前最先进的LLM(如Claude 3.5/3.7 Sonnet, GPT-4o)在会计欺诈检测任务中表现最佳,借助文本数据取得了最高ROC-AUC 0.73,仍仅稍微超越传统逻辑回归(0.68)。
- 盈利预测任务普遍表现弱,ROC-AUC约0.6左右,且文本信息无显著助益,反映未来盈利方向预测难度大。
- 行业预测任务相对简单,多数模型准确率超过30%,加入结构化财务数据效果明显提升,最高可达41%。
- 图表揭示的深刻见解:
- 解析程度较高的结构化数据(资产负债表、现金流量表、利润表)是行业区分的重要信息源。
- 真实案例报告分析中,LLM能够识别出异常盈利模式(如非经常性收益掩盖经营恶化),体现一定的财务理解能力。
- 误判多发生在数据缺失、财务指标波动复杂的样例中,暗示模型泛化能力有待加强。
- 总体立场和判断:
- 报告明确指出LLM当前财务分析表现未达到实用一线水平,凸显领域专业知识适配的重要性。
- 公开发布数据集与工具包(edinet2dataset)鼓励学界和业界合作,推动未来多模态、代理模型及行业特定调优的研究。
- 强调了负责任应用和公平性考量,避免误用数据损害公司声誉。
---
本报告为金融领域大型语言模型的研究和应用提供了前瞻性的基准测试框架和初步结果,展现了LLM复杂金融分析任务的巨大潜力与当前亟待突破的瓶颈,为未来跨学科研究指明了方向。[page::0,1,2,3,4,5,6,7,8,9,10]
---
图表示例
EDINET-Bench数据构建流程图:

日本企业行业分布图:

Claude 3.7 Sonnet在欺诈检测上的混淆矩阵:

Claude 3.5 Sonnet行业预测混淆矩阵:

---
(以上分析全面涵盖了报告的关键内容与图表数据,剖析了各任务设计与评估结果,对LLM金融应用研究价值具有重要参考意义。)