如何对比GPT5和DeepSeek谁更强?
创建于 更新于
摘要
本报告围绕大模型GPT5和DeepSeek的性能对比,详细介绍当前主流的评测框架及其局限,结合静态基准模型和用户双盲投票两大主流方式,探讨如何从真实任务出发评价模型的可靠性和泛化能力,最终提出智能体Agent的综合评价维度体系,为人工智能模型在金融等场景的应用提供参考 [page::0][page::1][page::2][page::3]。
速读内容
大模型发布和评测现状 [page::0]

- 以GPT5、Kimi-K2、DeepSeek V3和GLM-4.5为代表的大模型发布依托多个经典基准模型进行性能验证。
- 精选评测指标涵盖编程任务、数学科学题目和工具调用能力,如SWE-bench、AIME、AceBench等。
- 用户双盲投票平台LMArena通过对比回答质量为模型排名提供主观参考。
评测框架的限制与动态互评机制 [page::1][page::2]

- 静态基准题库导致评测区分度下降,容易被厂商刷榜或定制模型针对评测优化。
- 学术界提出的LLM-Crowdsourced动态互评机制允许模型间生成问题、互答和互评,克服静态评测局限。
- 多维度、多框架检测并提高评测全面性。
实战测试及智能体Agent评价维度 [page::3]
| 序号 | 模型名称 | 模型版本 | 响应时间(秒) | Token使用量 | 是否满足答案 | 评分 |
|-----|-----------------|-----------------------|--------------|-------------|-------------|-----|
| 1 | 月之暗面Moonshot | Kimi-K2-Instruct | 61.63 | 1018 | 是 | |
| 2 | 深度求索DeepSeek | DeepSeek-R1 | 117.16 | 2017 | 是 | |
| 3 | 深度求索DeepSeek | DeepSeek-V3 | 37.72 | 890 | | |
| 4 | 阿里Qwen | Qwen3-30B-A3B-Instruct-2507 | 42.55 | 1497 | | |
| 5 | 腾讯Hunyuan | Hunyuan-A13B-Instruct | 64.94 | 2478 | | |
| 6 | 百度ERNIE | ERNIE-4.5-300B-A47B | 36.89 | 1284 | | |
| 7 | 稀宇科技MiniMax | MiniMax-M1-80k | 83.48 | 4081 | | |
| 8 | 智谱AI | GLM-4.5 | 281.33 | 3223 | | |
- 结合实战金融研报总结和基金分析任务,测试不同模型响应时间和Token消耗。
- 智能体Agent评价体系包含输出质量、过程能力、可靠性和安全合规四大维度。
- 强调适配不同金融应用场景需求,选择最匹配的模型提高投研效率。
用户投票平台示例 [page::2]

- LMArena为代表的双盲投票平台增强了用户主观对比评价的有效性,动态更新模型表现排名。
- 用户匿名投票提高了模型间的真实竞争,缓解单向基准数据的局限。
深度阅读
详细分析报告:《如何对比GPT5和DeepSeek谁更强?》
---
一、元数据与概览
- 报告标题:《如何对比GPT5和DeepSeek谁更强?》
- 作者:陈奥林、肖植桐、Allin君行
- 发布日期:2025年8月15日18:00
- 发布机构:浙商证券研究所(通过微信公众号“Allin君行”发布)
- 主题:对比分析两大领先大语言模型GPT5和DeepSeek的综合能力,重点评测框架、用户评价机制、实际应用测试及风险提示,属于人工智能大模型技术与市场竞争的专业分析。
- 核心论点:
- GPT-5的性能提升较为有限,主要亮点在于编程能力和价格竞争力。
- 行业内的多个大模型(如Kimi-K2、Qwen3-Coder、GLM-4.5等)竞争激烈,表现优势吸引市场关注。
- 目前大模型评价存在两大主流方式:基于学术或行业设定的基准测试,以及基于用户主观双盲打分。
- 传统评价存在显著局限与风险,如刷榜行为、题库静态等,提出动态互评机制等创新解决方案。
- 实际应用中应根据垂直领域匹配适合的大模型,同时未来智能体Agent的评价将更复杂,需要多维度综合考量。
- 目标:帮助读者理解和识别大模型评价体系的复杂性和局限,比较GPT5与DeepSeek等模型的技术表现和实际价值,从而更客观地判断“谁更强”[page::0,1,2,3]。
---
二、逐节深度解读
2.1 摘要与行业背景
- 2025年8月8日GPT-5发布,但其性能提升被认为有限,仅在部分测试中小幅领先竞品,主要亮点为编程能力提升及价格竞争力。
- 国内大模型市场竞争激烈,7月内多款模型发布如Kimi K2、Qwen3-Coder、GLM-4.5。
- 这些模型宣称在对应的编程、数学、工具调用等测试框架中表现优异。
- 但公众、使用者对这些专业评测框架了解有限,如何穿透指标客观评价成为核心问题。
作者推理:业内加速内卷致使各方宣传存在营销和技术边界不清,故需理性分析指标背后模型真实能力和适合应用场景[page::0]。
2.2 大模型评测主流方式
- 基准模型比较:学术传统目标是模型表现超过基准,常用各类严谨测试框架,如:
- SWE-bench和LiveCodeBench评测代码调试及竞赛题处理能力。
- AIME2005、GPOA-Diamond测算数学与科学的推理深度,后者强调非搜索引擎可回答的难题。
- AceBench模拟多智能体交互,测试智能Agent的复杂多轮任务处理。
- 用户打分机制:以LMArena为代表的双盲投票平台,用户在匿名条件下基于主观体验,比较两款模型回答,实时动态更新榜单。
- 逻辑和假设:基准测试客观但静态且可被“刷题”优化,用户评分反映主观体验但可能存在偏向和样本不均。
- 作者指出这两种方式互为补充,短板明显,单凭一方难以全面评价[page::0].
2.3 评测框架局限及应对策略
- 刷榜风险:得分高具商业价值,导致厂商可能提供“定制版本”或利用评测规则漏洞获得不公平优势,平台数据抽样及规则不公开引发质疑。
- 静态题库不足:传统基准题目难以区分先进模型与弱模型,MMLU-Pro为升级示例。
- 动态互评机制创新:以LLM-Crowdsourced为例,模型自主出题、答题、评分,有望有效克服静态题库局限,实现更公正的评价过程。
- 未来评价方向:
- 结合真实任务匹配,关注模型在垂直领域的泛化能力及可靠性。
- 多维度评价智能Agent,而非单纯看模型水平,包括输出质量、过程能力、可靠性和安全合规四大指标体系。
- 强调结合任务实际情况定制测试样例,实现“模型-场景”匹配。
推理说明:静态测试无法反映模型动态推理和多任务协作能力,且商业导向影响评价公正性,作者建议借助新机制和场景化应用测试增强评价科学性和实用性[page::1]。
2.4 GPT5、DeepSeek与竞品技术比较(图1)
图1显示四款大模型在不同基准测试上的表现及其对应的基准测试框架:
- GPT5:
- SWE-bench Verified软件工程能力测试中,以思考模式下74.9%的准确率领先旧版GPT3及GPT-3.5。
- 多语言代码编辑(Aider Polyglot)测试中,GPT5思考模式准确率88%领先对比。
- Kimi-K2:
- 多个任务指标的表现数据(SWE-bench Verified、LiveCodeBench、多语言编程、数学/科学等),以蓝色(可能代表Kimi)与灰色对比各竞品表现。
- 数值具体,但整体在多个领域均有一流水准。
- DeepSeek V3:
- 在MMLU-Pro(90.2%准确率)、GPQA-Diamond、MATH500、AIME 2024、Codeforces 和 SWE-bench Verified等多个专业框架中表现突出。
- MMLU-Pro成绩特别亮眼,超越多种竞品。
- GLM-4.5:
- 利用12项基准包括MMLU-Pro、数学、推理、编程多维度考察。
- 其Agentic(智能体)、Reasoning(推理)和 Coding(编码)三大领域表现分布展示较为均衡,部分指标中排名靠前。
分析:该图表展示了多模型横跨编程、数学、推理等不同维度的深度对比,突出各模型的技术侧重点及优势领域;其中GPT5和DeepSeek均有不同场景的领先表现,反映出技术竞争的多样化及细分化[page::2]。
2.5 用户主观双盲投票榜单(图2)
- LMArena平台“双盲投票”演示界面及榜单截图:
- 用户在平台接收两个不同大模型的回答,基于“左侧更好”“右侧更好”等匿名投票选择模型。
- 实时动态更新排行榜单中,“gpt-5-high”排名首位,紧随其后为gemini、o3、Claude等模型。
- 该榜单反映了用户基于现实使用体验的主观评价,其中GPT5版本获得明显优势。
意义:该图强化了报告关于用户打分机制的讨论,即用户口碑虽不可完全客观,但在模型实际体验层面有重要参考价值。[page::2]
2.6 评测创新:动态互评机制(图3)
- 图3为LLM-Crowdsourced提出的动态互评结构示意:
- 四阶段流程:模型轮流生成原创难题→各模型独立解答→模型相互评价解答但不评价自身→汇总更新排名。
- 这种机制克服了静态题库信息闭塞、评分偏差和作弊风险,通过多轮互评实现自我驱动的公平排名动态,兼具创新性与适应性。
技术意义:该机制为行业打造激励兼容的综合评价体系提供了理论和实践基础,未来或成为评价大模型的主流趋势[page::2]。
2.7 实战应用测试与智能体Agent评价多维度(图4、图5)
- 图4为实测不同大模型在金融研究报告总结、基金分析等任务中的表现:
- 统计了响应时间、Token使用量、答案满足度等指标。
- DeepSeek-R1响应时间偏长(117秒),但答案满足;DeepSeek-V3表现相对优异(37秒响应)。
- GPT5未直接列于此表,但从前文得知其性能突出。
- 该表提示大模型在真实金融投研任务中各具“优缺点”,效果波动明显。
- 图5列出大模型智能体Agent未来评价体系的四大核心维度:
- 输出结果(任务完成度、输出质量、延迟成本)
- 过程能力(规划、记忆、工具使用、多智能体协作)
- 可靠性(鲁棒性、生成稳定性、错误处理)
- 安全合规(公平性、危害控制、隐私合规)
- 结合实测数据与理论评估维度,表明评测应从单纯性能转向综合智能服务能力的全面考察。
说明:实际应用中,模型的效率与稳定性同样重要,智能体Agent评价理念更为先进和全面,未来主导评测标准[page::3]。
2.8 风险提示与法律声明
- 强调AI模型和分析基于历史信息,参数调整可能导致性能波动。
- AI生成信息可能带来错漏,存在误导风险,投资决策需谨慎。
- 法律声明提醒读者专业投资顾问咨询的重要性,并免除报告发布方相应责任。
- 廉洁声明确保研究团队坚持合规和道德标准。
解读:该部分重视信息安全和投资风险管理,符合机构研究报告规范标准[page::1,4]。
---
三、图表深度解读
3.1 图1:大模型表现基准测试对比
- 展示GPT5、Kimi-K2、DeepSeek V3、GLM-4.5在多个权威基准(如SWE-bench、LiveCodeBench、MMLU-Pro、AIME 2025、GPOA-Diamond)上的具体表现。
- 明显看到GPT5在代码编辑相关任务中优势明显;DeepSeek在综合学术测试(如MMLU-Pro 90.2%准确率)中领先。
- Kimi-K2表现多样,兼顾编程和数学任务。
- GLM-4.5在Agent智能体和推理上展现均衡。
- 红色方框明确标出各模型采用的评测框架,帮助读者理解对比标准。
3.2 图2:LMArena用户评分机制展示
- 界面清晰展示用户投票逻辑,提供模型回答比对。
- 右侧榜单定期更新,显示头部模型排名变化趋势。
- 该图形象说明用户驱动评分如何成为除学术测试外的特色评价方式,带来实时性和大众参考价值。
3.3 图3:设计创新的动态互评机制流程
- 直观展现四阶段评测流程,包括问题生成、独立回答、互评及排名更新。
- 该机制自动化且公平,有效规避静态测试局限,引入更具挑战性的问题动态评价。
3.4 图4:金融领域实战测试各模型表现
- 多模型响应时间跨度从约37秒至280秒不等,显示速度差异明显。
- Token使用量和答案满足度展示了模型处理任务复杂性和输出质量。
- DeepSeek-R1响应慢但答案满足,DeepSeek-V3速度最快,显示相同品牌模型不同版本性能分化。
- 表明实际使用场景对模型选择关键,要综合考量速度、成本与准确性。
3.5 图5:未来智能体Agent评价维度表格
- 四大核心类别详细罗列,指标涵盖任务完成质量、推理能力、稳定性、安全合规等多角度。
- 反映未来评价体系的复杂性和多元标准,是对传统单一评测框架的显著升级。
---
四、估值分析
该报告属于技术概览和评测分析类研究报告,未涉及具体财务估值方法如DCF、P/E等。因此无专门估值部分。
---
五、风险因素评估
- 模型性能波动风险:由于参数微调及训练数据调整,模型性能和输出结果会波动,难以保持绝对稳定。
- 评测体系风险:
- 评测结果可能被商业刷榜,数据采样和规则设计带来漏洞。
- 静态题库容易被针对性优化,难以真实反映能力。
- 决策误导风险:AI生成内容可能含错漏,存在误导投资者的潜在风险。
- 法律合规风险:模型输出义务范围有限,用户需谨慎使用,避免违法和误用。
报告同时提出缓解策略如采用动态互评、多维度场景测试和提升用户辨别能力,但具体概率无明示[page::1,4]。
---
六、批判性视角与细微差别
- 报告相对客观,深入剖析了评测方法的优势与不足,未明显偏袒任何单一模型。
- 然而,有可能对GPT5的技术提升描述较为保守,未充分量化其创新点,显示出市场期待与实际表现之间的某种落差。
- 对商业刷榜现象提出质疑但未提供具体案例或数据,留待后续内容补充。
- 实战测试案例单次且具波动性限制了结论普适性,作者也明确声明不能完全代表模型整体实力。
- 对智能Agent评价多维度提及前瞻性,缺乏具体量化指标和权重分配,未来研究亟需完善。
---
七、结论性综合
整体来看,本报告通过丰富的基准测试数据、用户主观投票结果及动态互评机制的介绍,深入剖析了大模型评价的复杂性与产业竞争态势。GPT5和DeepSeek各有优势:GPT5在编程和用户口碑方面表现突出,DeepSeek则在知识推理和学术测试中表现优异。双方均不能简单用单一指标排名决胜。
图表1揭示了多模型在多领域的深刻对比展示,显示出大模型性能的多维度和专业化趋势;图2和图3强调用户体验和动态互评的重要性,有效弥补传统评测缺陷;图4和图5进一步阐释了实际应用层面对模型响应速度、准确性及智能Agent综合能力的更高要求。
风险提示和法律声明反映了行业面临的模型性能不确定性及投资决策风险,强调审慎使用和持续动态监测的重要性。
综上,鉴于复杂的评测框架、多样的应用需求以及潜在的偏差和风险,报告建议用户和投资者应结合具体应用场景,采用多元评价指标,避免仅凭单维度优势片面判定模型强弱。未来大模型评价体系朝向更加动态、多维和智能体化,GPT5与DeepSeek的较量将继续深化并多领域展开,无法简单定论“谁更强”,而是“谁更适合特定场景”[page::0,1,2,3,4]。
---
(如需查看报告中涉及的关键图表,可参考相应图片链接:
- 图1:[images/b426207880ea11bf49486d842843cd6667ddf113845f10b768b48d542f1630b4.jpg?page=2]
- 图2:[images/713cabe827bf42e98adc48f02c5c2226b9ce5b297faf91df7e1505f52b4b604f.jpg?page=2]
- 图3:[images/d1bcc0cae42685cf8e24633a32873e74155b6e403cea08b6890f05108f96812e.jpg?page=2]
)