`

DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型——AI动态汇总20250825

创建于 更新于

摘要

本报告汇总了2025年8月的AI领域最新动态,重点评述了DeepSeek V3.1版本的架构升级、长上下文能力及智能体应用,字节跳动开源的Seed-OSS 360亿参数大模型以及阿里巴巴多模态智能体WebWatcher和智谱AutoGLM 2.0手机Agent的技术突破与应用前景。联合图表展示了模型性能提升和架构创新效果,反映国产AI技术的快速演进与商业化趋势,为关注AI技术与产业发展的投资者提供重要参考,[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7]

速读内容


DeepSeek-V3.1混合推理架构与性能提升 [page::1][page::2][page::3]


  • DeepSeek-V3.1采用混合推理架构,支持“思考模式”和“非思考模式”切换,提高多场景适用性和计算效率。

- 在SWE-bench和Terminal-Bench测试中显著优于前代,长上下文扩展至128K,提升长文本理解和跨文档整合能力。
  • 推理效率提升明显,深度推理模式输出token减少20%-50%,同时API支持多模式并同步升级,助力商业化落地。


Seed-OSS 360亿参数开源模型及“思考预算”机制 [page::4][page::5]


| Benchmark | Seedl.6-Base | Qwen3-30B-A3B-Base-2507* | Seed-OSS-36B-Base (w/syn.) | Seed-OSS-36B-Base-wo5yn (w/o syn.) |
|-------------|--------------|--------------------------|----------------------------|-------------------------------------|
| MMLU-Pro | 70 | 59.8 | 65.1 | 60.4 |
| MMLU | 88.8 | 82.7 | 84.9 | 84.8 |
| TriviaQA | 91 | 76.2 | 82.1 | 81.9 |
| GPQA-D | 43.4 | 37 | 31.7 | 35.2 |
| BBH | 92.1 | 81.4 | 87.7 | 87.2 |
| GSM8K | 93.1 | 87 | 90.8 | 90.3 |
| MATH | 72.9 | 61.1 | 81.7 | 61.3 |
| MBPP | 83.6 | 78.8 | 80.6 | 74.6 |
| HumanEval | 78 | 70.7 | 76.8 | 75.6 |
  • Seed-OSS模型采用稠密网络与GQA机制,支持512K上下文,开源且可商用,具备极强数学推理与代码生成能力。

- “思考预算”机制允许动态控制推理深度,提升推理效率和准确率,4K预算下数学竞赛准确率达91.7%,刷新开源记录。
  • 具备法律文档审查等长文本处理优势,显存需求较高,持续优化方向包括混合专家架构探索。


阿里多模态智能体WebWatcher突破与应用 [page::6][page::7]


  • WebWatcher集成图像与文本处理能力,并协调多工具链完成复杂研究任务。

- 在HLE-VL、BrowseComp-VL、LiveVQA和MMSearch多模态任务中均领先多款顶级闭源模型。
  • 推动多模态智能体向开源生态迈进,降低专业研究Agent开发门槛。


智谱AutoGLM 2.0手机Agent技术创新与场景应用 [page::7]

  • 首创基于“终端指令-云端执行-结果反馈”闭环架构,实现云手机与云电脑协同作业,支持多应用协同办公与生活服务自动化。

- 通过强化学习驱动任务执行,手机端实测响应延时1.2秒,操作成功率98.7%,成本显著降低至0.2美元/任务。
  • 场景涵盖下单、行业报告撰写等,支持40+生活应用和20+办公系统,展现AI从对话到行动的跃迁。


AI行业发展三大赛道与技术前沿洞察 [page::11][page::12]


  • Sierra AI创始人提出三赛道理论:基础模型、AI工具链、应用型智能体,三者互促共进,助力AI产业生态构建。

- 新兴提示优化方法PROMPTQUINE 探索提示修剪与进化搜索技术,提升上下文学习效率并揭示LLM理解机制局限。
  • PROMPTQUINE在多任务包括数学推理上的表现接近甚至超过传统多示范提示,显著减少token长度。


通义千问Qwen-Image-Edit模型图像编辑应用突破 [page::9][page::10]


  • 采用双编码机制融合语义特征与视觉细节实现精准图像编辑,支持语义编辑、风格迁移与迭代链式修正。

- 文本编辑准确率97.29%,支持复杂中文排版和多轮精细调整,广泛应用于电商、教育、影视等领域,重塑设计流程。

深度阅读

DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型——AI动态汇总20250825 报告详尽分析



---

1. 元数据与概览


  • 报告标题:《DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型——AI动态汇总20250825》

- 作者:肖承志
  • 发布机构:中邮证券有限责任公司

- 发布时间:2025年8月26日
  • 主题:围绕中国主要科技巨头(DeepSeek、字节跳动、阿里巴巴、智谱)在大型语言模型(LLM)及智能体(Agent)最新技术突破和产品发布展开,涵盖大语言模型升级、开源模型发布、多模态智能体、多设备智能体以及相关企业技术基础设施革新。


核心论点与信息:



报告聚焦2025年8月国内AI领域最新突破,主要强调:
  • DeepSeek发布了具有混合推理架构、长上下文支持及智能体能力的V3.1版本。

- 字节跳动开源了参数规模360亿、支持512K超长上下文的新一代Seed-OSS系列模型,兼顾研究友好与商业实用。
  • 阿里巴巴推出领先的多模态智能体WebWatcher,开创多模态AI深度研究新范式。

- 智谱AI发布首个真正意义上的手机Agent AutoGLM 2.0,推动智能体跨平台大规模实用化。
  • 并讨论了腾讯和阿里在底层训练库及图像编辑领域的最新产品,以及当前AI产业的竞争格局和技术前沿研究。


报告整体展现国产大模型技术从基础架构创新、算法性能提升到多模态融合及智能体落地的全链路进展,展望AI进入Agent时代的重大里程碑,具有较高参考价值与行业指导意义。[page::0,1]

---

2. 逐节深度解读



2.1 DeepSeek线上模型升级至V3.1



关键论点
  • V3.1版本为DeepSeek在大模型架构及智能体能力上实现的系统性升级,重点突破混合推理架构、长上下文扩展及智能体任务执行能力。

- 混合推理支持“思考模式”(深度推理及复杂任务处理)与“非思考模式”(快速响应简单任务)自由切换,兼顾效率与效果。
  • 上下文长度突破128K,基于两阶段训练策略强化长文本处理能力。

- 在复杂任务(代码生成、终端操作、多步逻辑推理)表现优异。
  • API层面支持分模式调用与严格格式要求,推动商业化落地。


支撑逻辑与数据
  • 混合推理架构基于Transformer深度改造,动态激活不同注意力头,实现反应模式切换。

- 思考模式输出token减少20%~50%,性能保持与前代一致,显著提升推理效率(图表2显示不同任务输出token数显著缩减,验证效率进步)。
  • 128K上下文训练投入巨大(新增8400亿tokens训练,长文本上下文扩展阶段训练量显著提升),增强了模型对长文档及跨文档语义连贯性的理解能力。

- 详见SWE、Terminal-Bench、Browsecomp等多项基准测试提升(图表1及图表3),体现技术跃进。
  • 新引入UE8M0 FP8 Scale数值格式和分词器调整,适配国产芯片及微调场景。


预测与推断:
  • 长上下文及混合推理架构预计将提升模型在复杂商业应用、代码生成与智能体场景中的适用性。

- API定价调整反映商业模式成熟阶段,强调更灵活资源分配。

模型挑战与风险
  • 社区反馈指出数学推理、逻辑分析任务上进步有限,部分场景有性能波动,回退或多语混淆问题。

- 激进更新导致旧版API停用,对部分用户的商业稳定性构成威胁。[page::1,2,3,4]

---

2.2 字节跳动开源360亿参数Seed-OSS系列模型



关键论点
  • Seed-OSS 36B模型以360亿参数规模和512K超长上下文窗口为核心竞争力,代表开源大模型技术的新标杆。

- 模型采用纯稠密架构(非 MoE),64层深度网络,隐藏层维度5120,词汇表扩展至15.5万个,支持多语言及专业术语。
  • 集成分组查询注意力(GQA)与旋转位置编码(RoPE)技术,实现高效推理与原生超长上下文支持。

- 通过12万亿tokens训练,达到了较同规模模型80%的训练数据,但性能在多项基准测试体现优异。
  • “思考预算”机制创新,用户可动态调节推理token预算,提升灵活性和效率。

- Apache-2.0开源许可证下,支持免费商用和二次开发,配套丰富的部署工具和量化方案。

支撑逻辑与数据
  • 从图表4对比可见,Seed-OSS在MMLU-Pro、MATH、编程测试等方面显著优于竞品,同时部分测试项为SOTA成绩。

- 长上下文能力在RULER(128K上下文)测试中得分94.6,高效支撑法律审查等专业场景。
  • 训练效率及性能间做出权衡,采用GQA策略提升计算资源利用率。

- 社区反馈提示显存需求高,部署受限于硬件,且多语言支持需进一步完善。

潜在风险与改进方向
  • 面对复杂逻辑任务性能波动,部分多语言尚未覆盖次要语种。

- 字节跳动表态将继续优化模型效率、探索更大规模的混合专家架构,推动开源模型由“可用”向“好用”转型。[page::4,5]

---

2.3 阿里开源多模态智能体WebWatcher



核心论点
  • WebWatcher代表了多模态深度研究智能体的重大突破,支持图文同步解析、多工具链调用、自主多步骤任务执行。

- 在视觉问答等四大权威基准中显著超越闭源顶级模型GPT-4o,体现出多模态推理、知识整合与信息聚合的领先能力。
  • 设计了四阶段训练框架,包括通过数据合成技术E2HQA补充带验证多步推理数据,强化长时间动态交互能力。

- 支持和推动研究范式革新,旨在折射AI辅助科研领域的全新可能。

关键技术细节
  • 多项权威视觉语言基准中领先(图表5),Humanity’s Last Exam-VL得分13.6%高于GPT-4o的9.8%,显示跨模态推理能力优异。

- 强调工具调用与环境交互,支持OCR、代码解释、网页浏览等复杂任务。
  • 完整开源技术栈,含模型权重、数据构建、训练方法,降低企业构建研究型Agent门槛。


展望
  • 为医疗、学术、商业分析等深度研究领域AI应用赋能,具备广阔商业化前景。

- 技术开源推动生态繁荣和行业广泛应用落地。[page::6,7]

---

2.4 智谱发布手机智能体AutoGLM 2.0



核心论点
  • AutoGLM 2.0被定义为全球首个手机通用Agent,实现了“智能体从信息交互向行动执行”的跨越。

- 采用“终端指令-云端执行-结果反馈”的闭环架构,为用户分配专属云手机和云电脑,解耦运算负载与本地设备。
  • 创新“3A原则”:全天候运行、独立自主无干扰、全域连接多设备交互,彻底解决传统智能体与用户操作冲突。

- 任务成功率与响应速度均显著超越竞品,支持丰富生活和办公场景的自动化执行。

技术细节
  • Core模型GLM-4.5负责决策,GLM-4.5V负责视觉提取,二者结合强化学习优化操作成功率。

- 成本控制显著,单任务成本0.2美元,远低于传统Agent。
  • 安全机制设计细致,保障用户数据隐私与敏感操作安全。

- 生态拓展强劲,支持智能硬件集成,预期2026年市场规模达50亿元。

限制与未来
  • 跨应用稳定性、场景泛化需进一步提升。

- 智能体技术开启“人机双友好”的新时代,推动个人与AI智能体的融合协作模式。

[page::7]

---

2.5 腾讯与阿里其他动态


  • 腾讯发布WeChat-YATT训练库,针对大型、多模态、RLHF等复杂训练场景优化训练效率和系统稳定性。采用多控制器架构和并行/异步资源调度机制,显著提升集群利用率和吞吐量(图表6),相较开源VeRL训练框架平均训练时间减少60%。

- 阿里通义千问发布Qwen-Image-Edit图像编辑模型,基于双编码机制和多模态Transformer,实现语义与视觉细节兼顾的高保真图像编辑。支持原创IP编辑、视角合成、风格迁移、链式迭代编辑,综合性能超越竞争对手,应用于电商、教育及影视环节(图表7)[page::8,9,10]

---

2.6 AI行业洞察 —— Sierra AI三赛道理论


  • 将AI市场划分为:(1)前沿基础模型,(2)AI工具链,(3)应用型Agent三个核心赛道,反映产业竞争的多维度和层次。

- 强调三个赛道间的相互依存与演进关系,基础模型提供底层能力,工具链优化开发效率,Agent专注于价值落地。
  • 描述每个赛道的商业模式、挑战和发展动态,基于实际企业案例(如Sierra AI)说明AI应用层逐渐成为价值创造核心。

- 指出未来赛道边界可能模糊,融合趋势明显,推动AI产业广泛赋能。
  • 分析风险包括算力成本、伦理对齐、系统集成难题等。[page::11]


---

2.7 技术前沿解读 —— PROMPTQUINE提示进化机制


  • 大语言模型提示设计颠覆传统,利用进化算法自动剪枝提示token。

- PROMPTQUINE框架基于遗传算法“选择—自复制—变异”机制,自动发现更有效的上下文提示,提升模型性能同时大幅减少token长度(97%缩减)。
  • 刷新对上下文学习机制理解,链条实验表明提示词主要保留标签词,提示非语言结构化,提示效用与传统设计认知不同。

- 算法降低提示优化成本,从12小时降低至数分钟,具备实际部署潜力。
  • 对LLM对齐和安全理念带来冲击,提示工程有望进入新范式。[page::12,13]


---

3. 图表深度解读



图表1:DeepSeek-V3.1在SWE/Terminal-Bench上表现优异



显示DeepSeek V3.1相比3月和5月版本在代码修复(SWE-bench Verified)、多语种性能(SWE-bench Multilingual)以及终端命令执行(Terminal-Bench)三个基准的显著提升(如SWE-bench Verified得分66.0远高于45.4和44.6),表明模型升级后的多项能力大幅强化。[page::2]

图表2:推理效率显著提升



柱状图展示DeepSeek V3.1-Think模式相比早期R1-0528模型在AIME 2025、GPQA Diamond、LiveCodeBench三个任务中的输出token数量大幅减少(如AIME从22,615降至15,889),意味着相同或更好表现的同时,推理更高效,节省计算资源和响应时间。[page::2]

图表2:推理效率显著提升

图表3:复杂搜索多步推理能力



展示V3.1相比R1-0528在多项多步推理测试中优势明显(如Browsecomp得分30.0对比8.9,xbench-DeepSearch 71.2对比55.0),反映模型在集成知识检索与复杂逻辑任务上的显著提升。[page::3]

图表4:Seed-OSS模型基准测评



通过多项语言理解、推理、数学和编程基准对比,Seed-OSS-36B基础模型表现突出,尤其在MATH(81.7)、BBH(87.7)、GSM8K(90.8)等测试中达到行业领先水平,部分指标刷新开源模型记录,确认其综合实力。带合成数据模型明显在复杂任务上有较大优势。[page::5]

图表5:WebWatcher多模态基准跑分



包含Humanity’s Last Exam (HLE)-VL,BrowseComp-VL,LiveVQA及MMSearch四项权威视觉语言测试,WebWatcher均领先竞争对手GPT-4o、Gemini、Claude等,尤其在HLE和MMSearch取得大幅度领先,体现多模态综合推理优势。[page::6]

图表5:WebWatcher基准跑分

图表6:腾讯WeChat-YATT架构



展示了两种资源放置模式——部分共存与全员共存,体现并行控制器及资源调度机制,解释了该训练库如何解决多模态训练的扩展性及效率瓶颈,为后续训练效率提升提供了底层保障。[page::8]

图表6:WeChat-YATT架构概览

图表7:Qwen-Image-Edit图片编辑案例



展示多个基于卡皮巴拉IP的编辑样例,从添加道具到换服装、场景变化,体现模型语义一致性与精细编辑能力,实际展现了其对视觉语义和局部编辑的高保真支持。[page::10]

图表7:图片编辑案例展示

图表8:PROMPTQUINE框架示意



展示了基于选择、复制、变异的演化搜索流程和树形搜索结构,体现该框架不同于传统提示设计的创新性方法论和算法流程。[page::12]

图表8:PROMPTQUINE框架概述

图表9:PROMPTQUINE修剪后标签词比例



数据体现经过优化提示后,标签词在提示中的保留比例极高,验证了标签词对模型性能的重要作用,但提示中的许多非直觉成分被剔除,支持论文对提示机制的新发现。[page::13]

图表9:PROMPTQUINE修剪后的ICL提示

---

4. 估值分析



报告未直接包含传统金融估值分析,但涉及若干商业化策略和成本效率模型:
  • DeepSeek通过混合推理架构与API定价调整,提高商业应用的资源利用和盈利能力,体现出成熟的商业化路径。

- 字节Seed-OSS采用Apache-2.0开源许可,免费商用降低门槛,配套轻量部署与量化方案,突出商业生态扩展潜力。
  • 智谱AutoGLM 2.0通过云端架构降低执行成本至0.2美元/任务,远低于传统同类产品,费用效益显著,提高市场竞争力。

- AI工具链与训练基础设施(腾讯WeChat-YATT)显著提升效率,降低企业成本,间接驱动估值增长。

这些商业化模式体现了AI企业通过技术创新实现盈利与成本优化的趋势,预示未来估值关注点将从单纯模型性能转向整体应用生态与商业闭环。

---

5. 风险因素评估


  • 技术风险:大型模型在复杂推理任务(如数学推理、逻辑分析)上的表现仍有提升空间,存在模型性能波动及语言混杂等技术挑战。

- 稳定性风险:激进升级策略导致旧版API废弃,可能引发商业客户稳定性和兼容性问题。
  • 硬件资源限制:技术先进但模型显存需求高,尤其Seed-OSS的部署受限边缘设备,限制应用范围。

- 安全与对齐风险:最前沿提示优化技术揭示LLM潜在的对齐不足和安全漏洞,需警惕模型被恶意操控。
  • 政策和市场风险:报告明确指出历史数据的依赖和政策市场变化可能导致内容失效。


报告未详述具体缓解方案,但多个技术团队已通过架构改进、强化学习及安全机制来应对上述风险。

---

6. 批判性视角与细微差别


  • 报告整体基调积极,聚焦技术突破和性能指标,较少涉及深层次的技术缺陷或长期风险,存在一定的乐观偏向。

- DeepSeek模型的激进更新策略虽推动技术进步,但对商业用户造成潜在冲击,反映出产品迭代迭代节奏与用户需求可能不完全匹配。
  • Seed-OSS强调开源与商业兼容,但对显存等硬件资源依赖较高,说明国产开源模型生态仍处于初级阶段,未来升级压力大。

- 智谱AutoGLM突出“云端架构”,在连接和安全设计细节上点明优势,但云端资源依赖或带来运营成本和城市网络依赖的挑战。
  • Sierra AI的三赛道框架清晰,但未来三者融合可能导致赛道界限模糊,需警惕战略执行中的复杂协调挑战。


总体来看,报告在专业性层面扎实,但对技术风险和长期发展中的不确定性关注不足,建议投资者和研究者结合多来源信息综合评判。

---

7. 结论性综合



本报告深刻反映了2025年8月中国AI领域大模型与智能体技术的最新进展,亮点包括:
  • DeepSeek V3.1通过混合推理架构与128K长上下文扩展,显著提升复杂任务与交互效率,展示国产模型在智能体迈向实用阶段的关键能力,但部分应用场景技术尚需打磨。

- 字节Seed-OSS 36B模型以360亿参数、512K超长上下文与灵活“思考预算”推理机制,刷新开源大模型性能与应用边界,推动国产开源生态发展。
  • 阿里WebWatcher在多模态智能体领域实现跨模态融合与工具链集成,领先业界视觉语言问答基准,开启学术与科研AI辅助的新篇章。

- 智谱AutoGLM 2.0通过云端架构大幅降低智能体执行成本与门槛,推动智能体从实验室向手机终端的商业普及,实现用户体验和技术效果双跃迁。
  • 腾讯WeChat-YATT解决多模态大模型训练瓶颈,支撑复杂训练任务提升效率,巩固大模型产业基础设施优势。

- 通义千问Qwen-Image-Edit融合语义与细节编辑,展现视觉AI绑定创作流程的深度变革潜力。
  • 报告结合Sierra AI三赛道理论PROMPTQUINE提示优化研究,为从商业竞争框架到技术机制提供了精选洞见,彰显行业对效率与理解机制的深度追寻。


图表与数据充分展示四大主角在模型性能、效率及应用生态上的领先优势,且均考虑了技术实际部署和商业推广复杂性。风险提示提醒政策、市场和技术的动态变化对结论有效性可能存在影响。

总体而言,报告确立了AI迈向智能体时代的里程碑,印证国产AI生态加速追赶的现实,提供了投资者、技术人员及产业决策者深化理解和战略布局的价值参考。

---

版权声明



本分析基于中邮证券《DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型——AI动态汇总20250825》原报告内容,内容溯源严格对应页码标注,确保信息可追溯和验证。[page::0-14]

报告