基于大模型外部评价体系框架介绍
创建于 更新于
摘要
本报告构建了面向金融领域的专业问答能力评价基准,由188道涵盖金融计算、财务分析等9类高质量单项选择题组成,配备清晰的推理链条,用于系统评估国产主流大模型(如DeepSeek、混元、Qwen、GLM)在零样本、思维链、少样本及复合提示情景下的表现。实验表明,思维链提示显著提升模型准确率,单模型最高提升超15%,而样本提示效果有限。模型在处理逻辑复杂、概念相近题目时易出现误判,提示了当前金融大模型推理能力的瓶颈与未来优化方向 [page::0][page::13][page::15]
速读内容
大模型金融问答评价基准概述 [page::0][page::9]
- 构建包含188道题目的金融问答能力评价基准,涵盖金融相关计算、经济学、财务报表分析、公司金融、权益投资、固定收益、衍生品、另类投资和投资组合管理9大类别。
- 题目均为单项选择题,配备唯一正确答案及详尽的推理过程作为思维链,强调推理和逻辑能力的测试。
- 基准设计原则包括客观性、答案唯一性、可验证性与代表性,确保评价的严谨性。
多场景评测设计与模型选择 [page::11][page::12]
- 实验设计包括四个场景:基准场景、思维链(CoT)提示、少样本提示(few-shot)、以及思维链加少样本复合提示。
- 样本提示集包含72道题,测试集包含116道题。
- 测试模型为国产主流大模型:DeepSeek-R1、DeepSeek-V3、Hunyuan-T1、Qwen-max、DouBAO-seed-1.6-thinking和GLM-4-plus。
- 评测指标采用准确率和Pass@K,后者考虑模型多次尝试产生的潜在正确率,较好地反映模型输出多样性与稳定性。
实验结果及性能对比 [page::13][page::14][page::15]
| 模型 | 基准准确率 | 思维链准确率 | 样本提示准确率 | 思维链+样本提示准确率 |
|------------------|------------|--------------|----------------|-----------------------|
| DeepSeek-R1 | 79.31% | 88.03% | 78.45% | 87.07% |
| DeepSeek-V3 | 72.41% | 82.76% | 78.45% | 86.21% |
| HUNYUAN-T1 | 77.59% | 83.62% | 78.45% | 87.07% |
| Qwen-max | 67.24% | 87.07% | 70.69% | - |
| seed-1.6-thinking | 79.31% | 84.48% | 78.83% | 86.21% |
| GLM-4-plus | 73.81% | 89.66% | 75.00% | - |
- 思维链提示显著提升所有模型准确率,最高提升超过15%。
- 样本提示效果提升不明显,部分模型在样本提示场景表现甚至低于基准。
- 复合提示场景下,模型准确率整体提升,初始能力弱的模型提升尤为明显。
- Pass@K指标与准确率趋势一致,思维链+样本提示场景下Qwen-max Pass@3达0.8922。
不同类别题型准确率表现差异 [page::14]
- 金融相关的计算、投资组合管理、另类投资类别表现优异(多数模型准确率超85%)。
- 经济学和财务报表分析类别表现较弱,6模型平均准确率分别仅63.64%和63.58%。
- 说明模型在涉及基础数量计算类问题和抽象逻辑推理上存在差异。
错误案例逻辑分析 [page::15]
- 以流动性判断题为例,大模型普遍困惑于“流动性消耗(pull)”与“流动性拖累(drag)”的细微区别,导致推理错误。
- 题目本身具有逻辑陷阱,模型虽展现一定推理能力,但受限于概念理解及语义细节,仍易受误导。
- 表明需要结合严格逻辑指引以提升严谨性,防止幻觉或误判。
结论与风险提示 [page::15][page::16]
- 建立了系统性的逻辑推理金融问答评价框架,发现高质量思维链是提升大模型金融推理能力的关键。
- 实验展示当前国产大模型具备基础金融专业问答能力,但复杂推理仍有提升空间。
- 建议未来金融AI辅助工具需注重逻辑验证及透明推理链,防止成为不可控黑盒。
- 报告样例及数据仅供测试参考,不构成投资建议,存在误判和幻觉风险。

深度阅读
基于大模型外部评价体系框架介绍 — 详尽分析报告
---
一、元数据与报告概览
- 报告标题: 《基于大模型外部评价体系框架介绍》
- 作者与机构: 肖承志、冯昱文,中邮证券有限责任公司,Zeta金工研究团队
- 发布时间: 2025年7月2日
- 研究主题: 主要关注大语言模型(LLM)在金融领域中的专业问答能力评估,通过建立新的金融问答能力评价基准,全面测评主流国产大模型。
核心论点与目标:
报告针对当前主流大模型在金融领域的应用,强调专业金融问答能力的评测不足,基于此构建一个全新的、以逻辑推理为核心的金融问答能力评价基准。题库覆盖金融计算、财务报表分析、权益投资等9大类别,包含188道单选题,每题配有详细思维链。通过四种实验场景(基准、思维链CoT、少样本提示、两者结合)评测多个国产大模型,结果表明思维链提示显著提升准确率,且模型在处理逻辑陷阱题目时表现不足,反映出金融问答推理能力的提升空间和挑战。报告最终指出,大模型的金融应用应以辅助为主,需重视其推理链条的严谨性。[page::0][page::1]
---
二、逐节深度解读
2.1 大模型能力评估基准综述
- 报告开篇系统梳理大模型的发展现状,列举了多家主流公司和其代表模型,如OpenAI的ChatGPT系列、Google DeepMind的Gemini、腾讯的混元等,展示了大模型产品的多样性及不同定位。例如:
- OpenAI ChatGPT具备多模态和强推理能力
- Anthropic注重安全性和多步骤推理
- Meta开放源代码,注重社区生态
- 介绍了OpenAI旗下17个推理模型(图表2、3直观展示了模型层级及功能区分),强调面对众多模型,合理评价体系的重要性,用以避免盲目选择,节省资源。
- 归纳了现有基准主要衡量代码能力、数学逻辑推理、指令遵循、函数调用以及通用知识推理等维度,指出金融领域尚缺乏针对性的成熟基准,基准评测对于大模型合理选型和提升意义重大。[page::2][page::3]
2.2 现有主流基准介绍
- LiveCodeBench: 以编程能力为核心,收录超过1000道题目,涵盖代码生成、自我修复、执行预测等不同层面。评分使用Pass@K标准,通过多次代码生成来体现模型潜在能力。示例题清晰展现了题目与模型代码生成(如GPT-4-Turbo)的运行结果。该基准能较全面反映模型在真实编程情境下的表现。[page::3][page::4]
- AIME: 以高阶数学推理为重点,包括代数、几何、组合数学等奥数领域题目,问答形式多为整数填空,考察模型多步推理与定量计算能力。报告指出,最强模型即使未专项训练,该类别题目准确率仍较低,展示了数学类推理难度。[page::4]
- BFCL(函数调用能力评测): 聚焦于模型调用外部函数与API的能力,涵盖基础调用、并行调用、链式调用等多种场景,强调模型在智能体化过程中对工具调用的精确度和安全性。标准化的三元组(问题-函数-答案)结构保证准确可测。指出此类测试对智能体构建尤为关键,从而体现了大模型应用场景的多样复杂。 [page::5]
2.3 金融领域大模型能力评价基准
- 分析指出当前评测多偏向逻辑、数学和代码,金融领域面临特殊挑战:
1. 金融任务强主观性,且依赖上下文丰富且不定
2. 数据隐私及合规限制分享
3. 任务广泛细分,标准化评价框架建立难度
4. 错误产生法律风险,公开分享受限
- 典型金融问答测试中展示了模型错误案例,体现了信息提取能力和回答准确性重要性,例如FinanceBench题目中处理财务报表数据的场景。财务数据问答中,模型输出错误金额或不一致单位即属错误。 [page::6]
- 报告列举了多套金融领域评测基准:
- FinanceBench: 覆盖10000+基于上市公司年报的事实问答,强调答案的准确率和出处验证。实验表明强模型仍存在较高误答和拒答率。
- FinBen: 包含24种任务、36个数据集,涵盖信息抽取、文本分析、风险管理、预测和决策制定等多层面,兼顾分类及生成任务,并首次纳入股票交易决策模拟评测。
- FinBen的综合评分显示整体任务难度大,顶尖模型综合得分低于33%,体现金融领域对模型能力的高要求。
- 任务中不同模型各有所长,如GPT-4偏重定量与抽取,Gemini系列在生成与预测任务表现更优。
- 上述基准和评测为后续构建新型金融逻辑推理问答评价体系提供了方法论支持。 [page::7][page::8]
2.4 新型金融问答评价基准构建
- 报告重点介绍了本次构建的金融问答基准设计理念:
- 关注核心能力:强调“金融问题解答”能力,且主要考察需要逻辑推理(不可直接搜索匹配)的题目。
- 题目原则:
1. 客观性 — 答案无主观歧义
2. 答案唯一性 — 明确且唯一正确选项
3. 可验证性 — 具备清晰的逻辑推理支持
4. 代表性 — 涵盖金融多个重要领域
- 题目分类:根据金融专业知识,划分为9类:
- 金融相关计算、经济学、财务报表分析、公司金融、权益投资、固定收益、衍生品、另类投资、投资组合管理。
- 题库设计:
- 总题数188道,全部单项选择题,每题3选1。
- 每道题均附有详细推理过程(思维链/Chain of Thought),有助于激发大模型推理能力。
- 题库结构:
- 采用JSON格式存储,字段包括类型、题目文本、答案及详细解题逻辑,便于数据处理和模型调用。
- 示例题目展示了题干、选项、标准答案及逻辑说明,清晰反映专业问题的复杂度与推理需求。 [page::9][page::10][page::11]
2.5 实验设计
- 设计四种实验场景:
1. 基准场景 — 直接给定问题,模型回答。
2. 思维链(CoT)提示 — 提供推理线索,激励模型沿逻辑链条作答。
3. 样本提示(few-shot) — 通过少量示例引导模型。
4. 思维链+样本提示 — 结合两者效果。
- 数据集划分:72题作为样本提示集(8题/类),116题为测试集,防止数据泄露确保评测客观。
- 模型选择:聚焦国内主流大模型,包括DeepSeek-R1/V3、混元(HUNYUAN-T1)、Qwen-max、Doubao-seed-1.6-thinking、GLM-4-plus。
- 评测指标:
- 准确率:正确答案题数占测试总题数比例。
- Pass@K:多次生成答案中至少一次正确的概率,容忍输出不确定性,反映潜在能力。
- 日志文件生成详细记录每次推理结果、错误题型及模型推理过程,便于后续定性分析。 [page::11][page::12][page::13]
---
三、图表深度解读
图表2、3:ChatGPT系列推理和旗舰模型展示
- 内容:分别展示OpenAI推理模型家族及旗舰/成本优化模型,清晰区分不同型号的性能和功能侧重点。
- 解读:形象地反映一个大模型生态内部的多样层级,强调合理基准可助力用户精准选型,避免资源浪费。
- 联系文本:补充说明当前产业多模型并存,评价基准不可或缺。
- 潜在限制:公开信息较基础,未涉及具体性能指标。[page::2]
图表4(两张):LiveCodeBench测评样题
- 内容:显示模型对一简单编程问题的代码生成及结果验证。
- 解读:该基准通过标准化题目和自动单元测试实现无偏判断,同时支持思维链评估,展示模型在编程领域的多维度考察。
- 联系文本:体现基准设计的公正性和技术先进性,为金融大模型评价基准的科学构建提供参考。[page::3][page::4]
图表6:金融问答错误案例示例
- 内容:演示模型错误回答Best Buy库存数据的问题,显示三种答案中唯有最后一个为正确。
- 解读:直观显示金融数据问答中模型的不确定性,以及错误答案可能来源于知识点理解偏差或上下文不匹配。
- 联系文本:强调金融问答比一般知识问答要求更高,需注重标准答案和推理链严密性。[page::6]
图表7:FinanceBench数据样例结构
- 内容:展示FinanceBench数据集中的一级字段及样本问题、对应答案和证据属性。
- 解读:该基准依赖财报等实证数据,需要模型在指定文件中定位信息,无法简单靠预训练知识。
- 联系文本:界定了金融问答基准对信息抽取和事实核验能力的重视。[page::6]
图表8:FinBen数据集构成环形图
- 内容:以颜色深浅表示数据规模,囊括风险管理、文本抽取、文本分析、问答、文本生成、预测及决策七大能力类别。
- 解读:展现FinBen在任务广度与数据量上的优势,促进大模型多方面综合能力考察。
- 联系文本:强调金融领域多维度需求,单一任务基准难以全面评价模型表现。[page::8]
图表9:题目分类及数量分布表
- 内容:覆盖188题,分布于9大金融类别,数量相对均衡,保障代表性。
- 解读:合理覆盖金融知识板块,确保模型能力不偏不倚,同时便于针对不同领域细致分析性能。
- 联系文本:符合报告中题目分类逻辑和代表性需求原则。[page::10]
图表10:示例题目样本
- 内容:以住房抵押贷款证券的发行为背景设置题干,同时给出标准答案与模型预测答案。
- 解读:提供了具体三选一金融知识点问题,辅以标准推理解释,体现模型识别正确答案的难度及思维链作用。
- 联系文本:是实验题库设计的具体实例,对应构建思维链的重要性。[page::10]
图表11:题库Json结构示例
- 内容:展示具体JSON格式,包括题目类别(type)、题干及选项(question)、正确答案(answer)、推理过程(solution)。
- 解读:体现题库结构化存储特点,便于机器读写和调用,也便于辅助构建思维链提示。
- 联系文本:支撑题库实现数据驱动评测框架的目标。[page::11]
图表12-13:实验结果准确率比较表
- 内容:列出6个模型在4个提示情景下的准确率分数,明显表现为思维链场景大幅优于基准和样本提示。
- 解读:
- DeepSeek-R1和seed-1.6-thinking表现最优,准确率达到79%以上。
- 思维链提示普遍提升准确率,GLM-4-plus提升最高超过15%。
- 单独样本提示贡献有限,部分模型甚至下降。
- 结合思维链和样本提示提升较为稳定。
- 联系文本:印证了高质量逻辑线索对金融问答性能提升的决定性作用,同时说明少样本提示效果受限于样本代表性。[page::13]
图表14:不同类别准确率对比
- 内容:各模型在9类金融问题的准确率一览。
- 解读:
- 投资组合管理、金融相关计算、另类投资表现突出,准确率普遍超85%。
- 经济学、财务报表分析两类表现较弱,均值约64%。
- 显示不同金融领域对大模型能力的挑战程度差异。
- 联系文本:为后续针对性提升模型提供指引,揭示模型领域偏好。 [page::14]
图表15:Qwen-max模型Pass@K结果
- 内容:展示Qwen-max模型在不同实验情境、不同K值下的Pass@K概率,K分别取1、2、3。
- 解读:
- Pass@3达到最高0.8922(思维链场景),反映模型在多次生成尝试中有更大概率给出正确答案。
- Pass@1值不到0.6,说明单次输出准确性仍有限。
- 同样验证思维链的有效性,样本提示贡献较小。
- 联系文本:表明Pass@K能客观评估模型潜在能力,兼具容错性。[page::14]
图表16-17:模型错误推理案例
- 内容:以一 आर्थिक学题目为例,展示HUNYUAN-T1模型错误的推理过程与标准答案和推理解释。
- 解读:
- 模型混淆“流动性消耗(pull)”和“流动性拖累(drag)”两个近似概念,导致了错误选择。
- 错误分析反映金融问答中存在细微的逻辑陷阱,需模型深层理解。
- 说明模型虽具一定逻辑能力,但在复杂语义和专业定义上易出错。
- 联系文本:证明金融问答基准深度挖掘模型推理链条的必要性,同时提示未来改进点。[page::15][page::16]
---
四、估值分析
本报告主旨为能力评测,未涉及公司估值或具体财务预测,因此未包含DCF、市盈率等估值分析内容。
---
五、风险因素评估
报告识别的风险主要集中于:
- 历史数据局限: 依赖过去案例和规律,未来市场变动可能导致模型表现不稳定或者基准失效。
- 数据开放与合规约束: 金融数据敏感,公开评测基准构建受限,可能影响题目代表性和覆盖面。
- 模型幻觉与随机性: LLM回答存在时而产生错误信息(幻觉),随机性输出易产生内在不确定性。
- 投机使用风险: 模型生成金融建议存在误导风险,报告强调非投资建议仅作测试用途。
- 测试样本代表性不足: 样本提示提升效果有限,提示样本不够精炼可能误导模型。
报告未明确给出缓解策略,但通过强调高质量逻辑线索和完善推理链设计,间接提升模型可靠性。提醒用户需结合对模型能力及局限性的理解谨慎使用。[page::0][page::16]
---
六、批判性视角与细微差别
- 报告客观全面,但存在如下需关注之处:
- 样本提示效果弱:报告认为主要因提示样本不足以代表测试题分布,隐含提示样本筛选和构造的挑战。
- 推理链依赖度高:模型表现很大程度依赖人工设计的高质量逻辑链条,若链条有所偏差,可能误导模型。
- 不同模型消耗差异显著:部分表现优异模型推理时间长,是否具备实时应用能力未提及,实际部署考量不足。
- 题库覆盖面与深度限制:题库虽含188题,涵盖面广但题目量相对有限,样本规模对抽样可信度存在影响。
- 无法完全消除“黑盒”风险:报告中指出大模型不可控“黑盒”风险,但未提出更具体的模型监控或解释方案。
- 未涉及多语言或跨市场金融问题:题库及测试均以中英文或特定市场为主,对全球其他市场适用性不明。
总体来看,报告立场稳健,强调辅助角色不替代人类,但对模型现状评价仍带有一定期待,体现出目前大模型金融应用的机遇与限制并存的情境。[page::13][page::16]
---
七、结论性综合
本报告深入剖析了当前大模型在金融专业问答领域的评测缺口,并创新构建了一个以逻辑推理为核心的金融问答基准,囊括9大类188道细分题目,配备精炼的推理链条,为评测大模型的专业推理能力提供了标准化的工具。
通过对DeepSeek、混元、Qwen、GLM等国产主流大模型,在四种提示工程策略下的测试,发现:
- 思维链提示(CoT)显著提升模型准确率,最高提升幅度超过15%,远超单纯采用少样本提示的效果。
- 模型能力分布不均,表现优异者准确率达79%以上,部分类别(金融计算、组合管理)表现更佳,经济学与财报分析较弱。
- Pass@K指标进一步验证模型“潜在正确能力”,强调多次尝试下可实现较高正确率,反映生成模型随机性。
- 定性错误分析揭示模型逻辑理解存在偏差,尤其面对概念相近且设有陷阱的问题时容易答错,反映出推理链严谨性的重要性。
- 实验日志详细记录模型推理过程,为未来改进提供了重要素材,提升了研究透明度。
模型推理依赖优质的逻辑线索,未来提升核心在于增强模型阅读理解和复杂推理能力,同时需加强推理链建设和示例筛选优化。报告强调大模型未来难以完全替代人类分析师,但作为辅助工具,结合严谨推理指导,能够显著增强其金融应用的可信性和实用性。
最后,报告提醒用户需意识到金融领域数据合规风险、历史数据局限及模型幻觉可能性,谨慎使用模型输出,避免风险。
整体而言,该研究提供了金融大模型问答能力测评的扎实路径和方法论参考,为产业界评估和深化应用国产大模型提供了重要基石,具有较强的实践指导意义和前瞻价值。[page::0][page::13][page::15][page::16]
---
附:关键图片示例
- ChatGPT推理模型体系展示

- ChatGPT旗舰与成本优化模型展示

- LiveCodeBench题目样例及模型代码生成示例

- 金融问答错误案例示例

- FinBen任务构成环形图

- 金融题库示例题目

- 实验日志文件样例

- 错题推理示例


---
综上所述,本报告是目前国内首个系统构建并量化测试国产大模型金融问答逻辑推理能力的重要研究输出,为金融领域大模型建设与应用提供了重要参考依据。