`

中金 | AI智道(2):DeepSeek技术破局,成本下探引领应用百花齐放

创建于 更新于

摘要

报告深入分析DeepSeek系列模型的技术创新与工程优化,DeepSeek-V3在MoE架构、多头注意力机制及FP8混合精度训练策略上实现突破,训练成本显著低于海外同类模型,且性能对标GPT-4o。DeepSeek-R1系列强化学习训练再造推理能力,达到业内领先水平,助力实现AI应用的普及与规模化。模型低成本和高性能推动云厂商算力应用升级及AIDC产业发展,开源推动多模态模型Janus-Pro技术创新超越Dalle 3,整体引领产业技术平权与应用百花齐放 [page::0][page::2][page::4][page::6][page::8][page::9]

速读内容


DeepSeek-V3技术创新与极致性价比 [page::0][page::1][page::2]

  • 采用MoE架构,671B总参数,每token激活37B参数,采用冗余专家实现负载均衡,优化多头注意力机制MLA,推理效率大幅提升。

- 创新训练目标MTP实现一次预测多个令牌,推理速度提升1.8倍。
  • FP8混合精度策略首次大规模应用,降低算力成本,训练成本仅557万美元,耗时不足2个月,API服务定价低至每百万tokens 0.5元。

- 性价比高,进入最佳性价比三角区域,性能接近Claude 3.5 Sonnet却只有2%的成本。


DeepSeek-R1强化学习驱动推理能力突破 [page::3][page::4][page::5]

  • R1 Zero绕过传统监督微调,纯强化学习训练,推理性能比肩OpenAI o1,提供泛化能力和低标注成本优势。

- R1模型进一步融合SFT与强化学习,采用多阶段训练提升语言一致性与推理能力,采用GRPO算法强化多任务表现。
  • DeepSeek-R1在数学、代码等任务表现优异,推理效率达英伟达A100的92%,API定价大幅低于OpenAI o1。



硬件跨平台优化与国产芯片生态适配 [page::5][page::6]

  • 通过底层PTX指令集精细优化,提升计算效率,实质未绕开CUDA生态,保证Nvidia及其他GPU如AMD、华为昇腾兼容性。

- 适配国产芯片提供国产算力部署的确定性,推动国产AI算力利用率提升。

产业影响与趋势分析 [page::6][page::7]


| 产业影响点 | 说明 |
|-------------|-----|
| 技术平权 | 国内外大厂如字节、阿里、谷歌等基于FP8混合精度和MoE架构追随,推动技术普及与平权 |
| 蒸馏轻量化 | 知识蒸馏促进R1能力迁移到1B-70B参数规模模型,端侧应用规模化实现 |
| 数据要求 | 强化学习要求重质少量高质量数据,减少对海量日常对话数据的依赖,提高训练效率 |

Janus-Pro多模态模型领先表现 [page::7][page::8]

  • Janus-Pro架构通过两个编码器实现图像理解与生成统一,超越LLaVA、Dalle 3等模型,理解准确率达79.2分。

- 采用三阶段训练优化,阶段一延长适配训练,阶段二放弃ImageNet训练专注文本到图像数据,提升适应性和生成质量,阶段三引入合成美学与真实数据混合。

投资建议:云算力与AI应用全面爆发 [page::9]

  • 云厂商受益于DeepSeek降低用户使用门槛,带动云资源消耗提升,国产智算资源利用率提升,或推动云市场格局演进。

- AIDC板块资本开支上升,估值具备提升空间,尤其第三方数据中心具备弹性。
  • 推理成本下探带来AI应用百花齐放机遇,R1模型助力模型能力规模化落地,丰富应用生态。

深度阅读

中金 | AI智道(2):DeepSeek技术破局,成本下探引领应用百花齐放 —— 深度分析报告解构



---

1. 元数据与报告概览


  • 报告标题:《AI智道(2):DeepSeek技术破局,成本下探引领应用百花齐放》

- 作者:于钟海,魏鹳霏等,中金公司分析团队
  • 发布日期:2025年2月11日

- 发布机构:中国国际金融股份有限公司(中金公司)
  • 核心主题:分析DeepSeek系列大模型的技术创新、性能突破、成本下降及产业应用潜力,重点聚焦DeepSeek V3、R1系列及Janus-Pro多模态模型,评估其对AI产业格局及云计算、AIDC市场的深远影响。

- 核心论点
- DeepSeek V3技术与工程创新实现领先性能与极致性价比,训练成本及推理成本大幅降低。
- 强化学习主导的R1系列进一步突破大语言模型推理能力瓶颈,支持模型轻量化与端云协同部署。
- Janus-Pro模型在多模态理解和生成领域表现领先,超过国际主流模型。
- 成本下探推动AI应用多元化爆发,云服务商、AI数据中心迎来行业机遇。
  • 评级与建议:建议2025年关注模型性能优化背景下的应用层投资机会,重点锁定国产算力适配、云厂商及数据中心相关领域[page::0,1,9]。


---

2. 逐节深度解读



2.1 DeepSeek V3:技术创新与工程优化创造极致性价比


  • 关键论点

- DeepSeek V3采用自主开发的稀疏专家模型MoE架构,参数总量达到6710亿,每个token激活37亿参数,与GPT-4o能力对标。
- 引入多头线性注意力机制(MLA)以及创新训练目标——多令牌预测(MTP),效能显著提升。
- 首次在大模型训练中大规模使用FP8混合精度训练策略,平衡训练稳定性和成本。
- 训练投入极低,仅557万美元,耗时不足两个月。
- API定价创新低,仅百万输入tokens 0.5元,推动端云应用的快速扩散。
  • 推理依据与技术细节

1. MoE架构创新
- 延续V2设计,包含256个路由专家+1个共享专家。
- 每token激活8个专家,最多分派4个节点。
- 引入冗余专家,利用无辅助损失负载均衡算法减少推理阶段因专家调度带来的效率损失,创新引入专家偏置项以辅助路由判断。
2. MLA机制
- 利用低秩分解将大规模Key/Value投影拆分为两个线性层(wkva和wkvb),显著减少显存与计算压力。
- 通过将部分计算嵌入注意力分数计算,减少矩阵乘法次数,提高推理速度和效率。
3. 多令牌预测(MTP)训练目标
- 训练时不再是单步预测下一个token,而是同时预测多个未来token,密集训练信号增强上下文理解能力。
- MTP使推理阶段实现并行生成和验证,推理速度提升1.8倍,有效支持长文本和代码生成任务。
  • 核心数据点

- 参数规模:671B,单token激活37B。
- 训练规模:14.8万亿tokens。
- 训练成本557万美元,<2个月完成。
- API调用价格:百万输入tokens 0.5元;输出tokens 8元。
- 推理成本降幅:V2推理成本较前代降价99%,V3更进一步。
  • 图表解读

- 图表1对比单令牌预测与多令牌预测,展示MTP在训练信号密度、上下文依赖、推理速度及适用任务上的优势,强调MTP带来推理加速的关键作用。
- 图表2展示FP8混合精度训练流程,体现模型在保证精度稳定性的同时大幅降低算力消耗。
- 图表3训练成本结构详解,显示预训练为主要成本部分,合计557万美元。
- 图表4性价比三角图,DeepSeek-V3以2%成本达到Claude 3.5 Sonnet性能,超越多款国际大模型。
  • 总结

V3通过多项技术突破和工程优化,实现对标顶级模型的性能同时,极大降低训练和推理成本,其极致性价比有望成为推动大模型规模化应用的核心驱动力[page::0,1,2,3]。

---

2.2 DeepSeek R1 Zero及R1:强化学习引领推理能力突破


  • 关键论点

- R1 Zero绕过传统监督微调直接应用强化学习训练基础模型,达到与OpenAI的o1相当推理能力,迎来强化学习训练的第二次重大突破。
- R1在R1 Zero基础上融合监督微调(SFT)和强化学习(RL),多阶段训练改进生成的语言一致性和实用性。
- 通过底层硬件指令级优化和适配国产芯片,实现高效跨平台运行,推动国产生态发展。
- 低成本推理令R1 API价格降至OpenAI的1-1.5%,显著降低行业应用门槛。
  • 推理依据与技术背景

- 发展沿革回顾:AlphaGo首次结合人类监督与强化学习;AlphaZero完全自我对弈强化学习;ChatGPT采用人类反馈强化学习(RLHF);o1引入AI自主评分强化学习优化思维链;DeepSeek R1 Zero纯强化学习训练,取消人类监督SFT。
- R1 Zero在AIME 2024数学题目上通过率从15.6%提升至71%,多数投票后达86.7%,接近OpenAI o1水平。
- 图表7显示R1在多个任务(数学、代码)上与OpenAI o1模型的准确率对比,数据表现优异。
- R1通过SFT冷启动及多阶段训练策略,解决语言不一致问题,提升模型泛化与实用性。
- 技术创新的群组相对策略优化(GRPO)算法增强模型训练效率。
  • 推理成本与硬件优化

- DeepSeek底层利用Nvidia PTX指令直接编写,绕开CUDA接口层,提升计算效率。
- PTX底层优化兼顾跨平台适配,未来可支持AMD及国产芯片,走出生态局限。
- FP8混合精度技术和MoE架构为国产ASIC芯片适配提供可能。
  • 图表解析

- 图表5展示DeepSeek APP上线21天内DAU达到2,215万,在157个国家苹果应用商店排名第一。
- 图表6总结强化学习历史突破,强调R1 Zero的革命性训练模式。
- 图表8梳理R1与R1 Zero的训练流程区别及强化学习和监督学习的融合路径。
- 图表9展示PTX底层架构及跨平台兼容示意图,强调技术细节的产业意义。
  • 总结

R1 Zero纯强化学习训练范式验证了去标注、高效推理和强泛化的技术可行性,R1进一步结合SFT和RL提升实用表现,结合底层硬件及国产生态适配,成为突破推理能力瓶颈、推动场景规模化落地的重要支撑[page::3,4,5,6]。

---

2.3 产业影响与大模型“密度定律”


  • 核心观点

- DeepSeek将推动数据训练范式由规模驱动向质量优先转变,重视推理链复杂度和高质量数据。
- 蒸馏技术兴起,推动小型模型在端侧大规模部署,实现端云协同应用。
- 全球及国内厂商纷纷追随FP8、MoE、RL训练路线,实现技术平权,工程化与生态构建成为壁垒。
- 根据“密度定律”,大模型能力密度每3.3个月翻倍,参数和算力需求减半,说明训练成本仍有持续下降空间。
- 端侧(手机、汽车等)AI硬件部署因轻量化模型受益,场景应用多样化将百花齐放。
  • 产业意义

- 中国厂商在FP8混合精度、大规模MoE及强化学习方法上拥有追赶甚至超越机会。
- 端侧AI设备具备依靠蒸馏模型赋能的潜力,有望带来游戏耳机等硬件新机遇。
  • 图表10和11

- 图表10展示了密度定律趋势线,验证从2023年3月至2024年大模型能力密度与参数规模效率关系。
- 图表11(英文原文)进一步细化了开源基座大模型能力密度随着发布日期的提升趋势。
  • 总结

DeepSeek系列模型技术创新推动了AI产业从纯算力驱动往效率驱动转型,助力行业迈入低成本高性能并行的新时代,带来技术格局和应用结构的深刻变革[page::6,7]。

---

2.4 DeepSeek Janus-Pro:多模态统一理解生成的创新


  • 主要论点

- Janus-Pro模型具备统一架构同时完成图像理解和生成任务,性能优于Dalle 3、LLaVA等国际领先模型。
- Janus-Pro采用两个独立编码器(理解编码器与生成编码器)共享同一个Transformer网络,创新符合人脑第一性原理。
- 三阶段训练策略优化了模型实景适应性与图像生成质量。
- 阶段一:仅训练适配器,快速掌握像素依赖关系,训练时间延长25%-30%提升理解能力。
- 阶段二:放弃经典ImageNet训练,减时40%,大幅提升真实文本-图像生成质量。
- 阶段三:调整多模态数据比例,加入合成美学数据,提升图片美学表现。
  • 性能指标

- Janus-Pro 7B版本在多模态理解基准MMBench得分79.2,显著领先此前最佳。
- GenEval图像生成评测得分0.8,超过Dalle 3的0.67和Stable Diffusion 3 Medium的0.74。
  • 图表分析

- 图表11展示多模态理解和生成性能对比,Janus-Pro明显领先。
- 图表12架构示意清晰描述了两个编码器共用Transformer的设计理念,兼顾理解和生成的专业化需求。
  • 总结

Janus-Pro通过设计专门理解与生成编码器,并在训练策略上创新优化,实现多模态大模型一体化,有效提升跨模态理解与生成质量,引领多模态AI发展方向[page::7,8]。

---

2.5 投资建议与行业展望


  • 核心建议

- 关注云服务提供商(CSP)及其利用国产算力能力提升带来的市场机遇。
- 推理成本持续下降推动AI应用多元化、规模化爆发。
- AI数据中心(AIDC)板块受益于云厂商开支提升及第三方数据中心需求增长,估值具弹性。
- 随着DeepSeek等低成本高性能模型普及,预计行业资本投入和终端应用将持续增长。
  • 具体理由

1. 云服务需求增长:低成本模型降低用户门槛,云CSP资源消耗和智能算力利用率提升。
2. 国产算力确定性增长,华为、腾讯、阿里纷纷适配DeepSeek,助力国产智算资源释放。
3. 第三方数据中心受益云厂商资本开支及AI算力需求,具备价值重估潜力。
4. 推理从训练转向普及带来云厂商市场格局调整。
5. 指向工具类、Agent类应用的增长潜力。
  • 行业风险

- 技术迭代与商业化进展可能低于预期。
  • 附注

- 报告中引用多篇技术报告和权威数据,严谨支持投资逻辑与趋势判断[page::9,10]。

---

3. 图表深度解读


  • 图表1(MTP与单令牌预测对比)

说明多令牌预测强化上下文理解及训练信号密度,显著提升推理速度1.8倍。关键优势是支持并行推理,适合代码与长文本生成任务,推动技术突破。
  • 图表2(FP8混合精度训练框架)

展示FP8数据格式的混合精度训练流程,核心包含关键算子保留FP16/32精度保证准确性,降低主计算资源消耗。
  • 图表3(DeepSeek V3训练成本拆分)

说明DeepSeek整体训练耗时及成本分布,绝大部分成本为预训练阶段,训练时间<2个月,显示高度工程效率。
  • 图表4(性价比三角图)

DeepSeek V3以极低价格(横轴)达成接近国际一流模型(纵轴)性能,成本效率领先,奠定市场竞争力。
  • 图表5(DAU走势及国家分布)

DeepSeek上线仅21天,DAU快速突破2200万,位列全球第二,且在157个国家App Store排名第一,反映出产品和技术的强劲市场接受度。
  • 图表6(强化学习历史与突破对比)

梳理强化学习技术进化阶段,突出R1 Zero的纯强化学习范式具有划时代意义。
  • 图表7(R1与OpenAI o1性能对比)

R1在多种AI评测中表现接近甚至优于OpenAI o1,展示强化学习+策略优化的训练优势。
  • 图表8(R1训练流程)

展示R1 Zero与R1训练流程差异,强调SFT与RL相互结合提升模型性能与稳定性的路径。
  • 图表9(PTX底层架构)

说明DeepSeek基于Nvidia PTX指令集做底层优化,兼容CUDA生态但效率更高,兼顾国产芯片适配可能。
  • 图表10、11(模型密度定律)

体现大模型能力密度随时间快速增长,显著节约训练资源要求,支撑报告中关于持续降本的论断。
  • 图表12(Janus-Pro架构)

双编码器共享Transformer网络示意,体现多模态统一设计思路,兼顾理解和生成两个关键任务。
  • 图表13(Janus-Pro性能对比)

多模态理解和生成评测视图显示Janus-Pro领先地位,支持其市场潜力判断。

---

4. 估值分析



报告并无直接披露具体估值或目标价,但基于技术路线和产业影响的判断,侧重于:
  • 技术性价格优势形成价值支撑:以数字成本对比(如推理成本仅为OpenAI的1%-2%),行业开源模型竞争格局的“平权”预期反映深远市场价值。

- 产业链价值链:国产芯片适配、云计算资源利用率提升与AI数据中心需求增长为重要估值增量来源。
  • 估值弹性:基于行业资本开支提升和应用规模化爆发潜力,估值有显著上行空间。


敏感性分析未明确,但成本和性能的持续优化将直接影响市场份额和行业格局,值得持续跟踪。

---

5. 风险因素评估


  • 技术迭代风险:若DeepSeek或强化学习相关技术创新未达到预期,将影响推理性能和成本优势,抑制产业应用推广。

- 商业化进展风险:尽管技术领先,若下游AI应用接受度不及预期,市场规模和云服务需求无法快速放大,相关厂商投资回报受到限制。
  • 生态适配风险:跨平台硬件生态和国产算力适配复杂,若存在技术瓶颈也或制约DeepSeek广泛部署。


报告提出风险提示,但具体概率与应对策略尚未详述,建议投资者保持警惕并动态观察技术及市场反馈[page::1,9]。

---

6. 批判性视角与细微差别


  • 报告整体保持客观严谨,详细技术与市场数据支撑论点,但存在以下潜在限定:

- 对DeepSeek成本与性能优势的定量比较主要基于公开技术报告和部分第三方评测,实际商业环境和用户体验尚需持续验证。
- 强化学习训练范式虽具创新突破,但推理稳定性与语言一致性问题依旧存在,R1阶段性依赖SFT优化,表明技术仍在演进中。
- 跨硬件平台兼容和国产芯片适配技术实现情况具不确定性,可能存在实际部署障碍。
- 产业影响判断较为乐观,转换为商业成功还需考察政策环境、用户接受度及竞争格局变化。

总体而言,报告为新兴技术与市场趋势提供详尽分析,但应关注实际落地过程中的不确定因素[page::4,5,6]。

---

7. 结论性综合



本报告详尽剖析了DeepSeek V3、R1系列及Janus-Pro多模态模型的技术创新和工程优化,重点贡献如下:
  • 技术创新

- DeepSeek V3稀疏专家MoE架构、多头线性注意力机制和多令牌预测训练目标带来性能显著提升。
- FP8混合精度训练策略使训练和推理成本优势明显。
- 强化学习驱动的R1 Zero开辟新的训练范式,实现去人类监督的高效推理模型。
- R1融合强化学习和监督微调,提升模型输出质量和实用性,具备较强跨平台硬件兼容性和国产芯片适配潜力。
- Janus-Pro统一图像理解与生成架构,性能领先国际先进模型。
  • 行业影响

- 训练和推理成本大幅下探为AI应用广泛普及奠定基础,云服务厂商和数据中心面临新一轮资本投入和市场增长契机。
- 技术平权使国产大模型及生态迎来重大机遇,促进整体产业技术水平提升。
- “密度定律”验证大模型能力提升与成本降低的规律性,表明行业降本潜力依旧巨大。
- 蒸馏等轻量化方法促进模型端侧广泛部署,助力AI应用百花齐放。
  • 投资判定

- 深度关注云CSP、AIDC及应用层投资机遇,参与国产算力生态及AI加速硬件产业链发展。
- 技术风险与商业化不确定性提醒审慎跟踪。

综上,报告体现了DeepSeek技术在AI模型演进中打破成本和性能瓶颈的领先优势,具备推动AI应用爆发的强大潜力,彰显未来产业价值。其详实的技术分析与数据解读,为市场投资决策提供坚实依据[page::0-10]。

---

【附】报告主要图表示例



多令牌预测MTP与单令牌预测对比,突出推理加速和任务适用性。

DeepSeek V3性能/价格关系图,显示极致性价比位置。

DeepSeek APP全球DAU快速上升及国家用户分布。

Janus-Pro多模态架构双编码器示意图。

---

(全文完)

报告