中金 | AI进化论(1):DeepSeek推动 大模型平权 ,是训练算力的拐点还是黑洞?
创建于 更新于
摘要
报告系统性梳理了DeepSeek(DS)在大模型训练中所采用的多项创新技术,包括MoE架构的稀疏化专家模型设计、采用FP8混合精度训练提高算力利用率、多token预测(MTP)提升训练效率、以及后训练阶段采用的GRPO强化学习算法,显著降低算力成本。同时,报告强调了硬件工程化创新的重要性,如专家并行策略、双重流水线执行以及针对CUDA底层PTX代码的优化,提升硬件运行效率。DS技术路线虽提升训练效率,但未突破Scaling Law规律,算力需求仍有较大市场空间,国产算力支持面临FP8兼容性挑战,混合部署有望成为未来趋势 [page::0][page::2][page::3][page::5][page::6][page::8][page::10][page::12][page::13]
速读内容
DeepSeek模型训练中的核心创新技术 [page::0][page::1][page::2]
- 采用MoE稀疏专家架构,细分专家单元,激活少部分专家,实现高容量低算力消耗。
- V3版本模型参数671B,但单token仅激活37B参数,提升训练效率与算力节约。
- DeepSeek 16B MoE模型性能媲美LLaMA2 7B,算力消耗约为其40%,效率显著提升。

低精度FP8混合精度训练与多Token预测(MTP)技术提升算力效率 [page::3][page::4]
- 应用FP8混合精度框架,大部分计算采用FP8降低内存与算力需求,关键模块保留BF16/FP32精度保持稳定性。
- 细粒度量化和混合精度技术有效控制训练误差,FP8训练在DeepSeek-V2实测中损失误差与BF16相近。
- 多token预测技术(MTP)在训练时一次性预测多个token,提高训练信号密度及硬件利用率,降低训练成本。


后训练强化学习GRPO算法提升模型能力,优于传统RLHF [page::5][page::6]
- GRPO强化学习抛弃价值模型,利用组内候选输出平均水平作为反馈,降低显存及算力需求。
- 实验证明,应用GRPO的DeepSeekMath-Instruct 1.3B模型在GSM8K与MATH基准表现优于使用RLHF的模型。

硬件工程创新:专家并行、双重流水线及PTX底层优化 [page::6][page::7][page::8]
- 专家并行策略部署专家子模型于不同GPU,避免张量并行通信开销,采用负载均衡机制优化计算负载。
- 双重流水线(dual pipe)融合前向和后向计算与通信,有效缩小设备“气泡”,提升训练效率。
- 利用PTX代码对硬件进行微调,提升GPU资源利用率,优化矩阵计算和缓存行为。



训练硬件设计与通信需求分析 [page::9][page::10]
- MoE架构带来对芯片定制化设计需求,如近存计算和FP8支持,可能推动通信模块硬件固化。
- 专家并行策略的All2All通信复杂且通信量不一定低于张量并行,是否选择需视具体硬件与模型参数决定。
- 张量并行更适合显存充足和大矩阵计算场景,避免计算单元低利用率问题。



市场与技术展望:国产算力融合与大模型训练成本壁垒 [page::10][page::11][page::12]
- DeepSeek以约1/10训练成本达到接近GPT-4o性能,但未打破Scaling Law,算力成本壁垒依然存在。
- 后训练阶段引入GRPO算法,有望推动强化学习规模化,算力需求可能逆向释放。
- 国产训练芯片目前缺乏对FP8支持,适合混合部署(国产卡负责MoE稀疏专家,英伟达卡负责Attention计算)。
- 多级路由与MH-MoE等架构优化有助缓解国产卡性能瓶颈,第三方AI Infra通信优化潜力巨大。



深度阅读
中金 | AI进化论(1):DeepSeek推动 大模型平权,是训练算力的拐点还是黑洞?——详尽分析报告
---
一、报告元数据与概览
- 报告标题:AI进化论(1):DeepSeek推动 大模型平权,是训练算力的拐点还是黑洞?
- 作者:成乔升、彭虎等
- 发布机构:中金公司研究部
- 发布时间:2025年2月25日
- 研究主题:深度解析中国企业DeepSeek(DS)在大模型训练领域的创新,探索其如何通过技术创新推动大模型训练算力的平权化,评估这种创新带来的算力需求变化及潜在风险。
核心观点概述:
- DeepSeek近期开源了V3版本生成式AI大模型,核心创新显著降低了训练成本(仅为同类领先模型的1/10),并实现了与国际顶尖模型(如GPT-4o、Llama3.3)对标的能力。
- DeepSeek创新基于MoE(专家混合)架构,通过多项底层优化(FP8混合精度训练、多token预测MTP、GRPO强化学习等技术)和深入软硬件结合的工程设计,大幅提升了算力资源利用率。
- 报告认为这套创新并未打破Scaling Law的基本规律,但在当前中美贸易摩擦限制硬件采购的大背景下,是突破算力资源限制的重要路径,且通过提升算力使用效率,有可能反向放大训练算力的整体需求。
- 报告同时深入探讨了专家并行、流水线并行、底层PTX码优化等硬件架构影响,指出国产芯片及AI基础设施(AI infra)未来的发展方向和机会。
- 风险因素主要包括模型创新进展不及预期、算力硬件迭代瓶颈以及AI应用落地不足造成的需求波动。
---
二、逐节深度解读
2.1 摘要与核心创新
- DS团队坚持在模型层采用MoE稀疏化架构,使得每次仅激活部分“小专家”而非密集使用全部参数,从而显著减少了单次训练算力消耗。V3版本专家数量提升到256个,能力更强且算力利用更高效[page::0,1]。
- FP8混合精度训练:相较FP16精度,FP8精度仅需更小存储和计算资源,经过算法调整保证训练稳定性。这体现了计算低精度化趋势[page::0,3]。
- 采用MTP多token预测技术,一次训练中对多个token进行预测和loss计算,提升数据利用率和训练效率[page::4]。
- 后训练阶段创新的强化学习算法GRPO,替代传统RLHF,不依赖价值模型,降低了训练的显存和算力成本,同时提升了模型性能[page::5-6]。
- 硬件工程化同步优化:包括专家并行(EP)、双重流水线(DualPipe)以及底层PTX代码的深度定制,配合软硬件协同设计,最大程度实现GPU计算资源、通信带宽的高效利用[page::6-8]。
2.2 MoE模型架构与性能对比
- MoE结构将传统Transformer的全连接子层密集层替换为多个专家子网络,门控网络动态激活部分专家处理输入,稀疏使用计算资源。
- DS在MoE架构上做了细粒化专家分割和共享专家隔离,实现专家的专业化和知识细粒度分解,提升模型容量和效率[page::1-2]。
- DS MoE模型在实证性能上表现抢眼:2B参数规模的DeepSeekMoE模型,计算和参数量均低于GShard 2.9B,却性能相当;16B规模的DeepSeekMoE性能近似LLaMA2 7B,但仅用后者约40%计算量;145B规模中DeepSeekMoE领先GShard,并以不到三分之一计算量达到深度模型67B性能[page::2]。
图表2(DeepSeek 16B MoE与主流大模型性能对比):

解析:图中深红星代表DeepSeek 16B,明显超出同等参数规模及多数非MoE模型的性能表现,展示了稀疏专家架构下的优越性能和计算效率。
2.3 FP8混合精度训练与其优势
- 传统大模型多用BF16或FP32,保证训练精度但代价高昂。
- FP8仅为FP32位宽的四分之一,FP16的一半,有助于显著节约计算资源和加速训练。
- DS在V3训练中采用FP8混合精度框架,保持部分关键模块(嵌入层、注意力、门控等)较高精度,平衡效率和训练稳定性。
- 通过细粒度量化(分组乘数调整)与混合精度策略,避免了FP8训练的数值不稳定和溢出问题。
- 训练数据误差曲线(图表4)显示FP8误差表现接近BF16,训练稳定可控[page::3-4]。
图表4(DeepSeek V2 FP8与BF16损失误差):

2.4 多token预测(MTP)
- MTP在训练中一次预测多个后续token,利用多重交叉熵loss增加有效训练数据密度。
- 通过并行预测改变传统依次预测计算模式,提升硬件利用率。
- DS V3采用MTP技术,提升训效与算力利用[page::4]。
图表5(MTP示意图):

2.5 GRPO强化学习算法创新
- 传统RLHF需要训练价值模型造成显存压力,且存在误差问题。
- GRPO使用组内候选平均水平替代价值模型计算状态值,消除对价值模型依赖,降低算力并提升稳定性。
- DeepSeek Math-Instruct 1.3B模型使用GRPO后表现明显优于传统RLHF技术路线,在数学推理benchmark(GSM8K、MATH)中提升准确率[page::5-6]。
图表6(GRPO算法示意):

图表7(GRPO与RLHF效果对比):

2.6 硬件工程化创新
- 专家并行(EP)策略:
- MoE模型中各专家部署于不同GPU,独立前向反向运算,减少张量并行中的大量跨设备通信。
- DS改进EP策略引入无辅助损耗的负载均衡,动态调节专家亲和力得分,实现训练负载均衡[page::6]。
- 分析节点内通过NVLink连接、节点间采用InfiniBand通信,采用多节点重叠传输与通信限额策略优化通信成本[page::7]。
图表8(EP策略示意):

- 双重流水线(DualPipe)策略:
- 传统流水线并行中计算设备等待通信造成资源浪费(bubble)。
- DualPipe融合前向和后向计算加速通信,通过调整GPU多处理器的资源调度提高通信效率,减少资源空闲[page::7-8]。
图表9(DualPipe示意图):

- PTX代码及其影响:
- PTX是Nvidia CUDA架构下面向GPU的底层并行计算指令集,做为CUDA的中间代码层,提供硬件调度的精细控制和可移植性。
- DS团队利用PTX技术微调硬件调度,提升指定模型在现有硬件上的效率。
- 同时PTX的专属性带来迁移难题,需要更多编译器和工具链支持适配其他硬件[page::8]。
图表10(PTX作用与迁移难题):

2.7 训练硬件技术的设计趋势
- MoE架构的发展对芯片设计提出定制化专家运算单元及近存计算的新需求,尤其是大规模低精度数据的高效处理能力。
- 通信上,尽管传统观点认为EP减少通信需要,但报告指出All2All通信需求不会下降,且跨节点EP频繁增加高速通信需求。
- 张量并行(TP)与专家并行(EP)各有计算与通信开销,选择需看具体模型并行度、激活专家数量、硬件条件,无法简单对比谁优[page::9-10]。
图表11、12(EP与TP通信模式示意):


- 计算效率视角,张量并行在高显存和专家数足够场景下更友好,提升矩阵乘法的计算单元利用率,不宜过度切分[page::10]。
图表13(EP与TP计算量对比):

2.8 对训练硬件需求的影响及国产芯片适配
- DeepSeek以1/10成本达成与全球顶尖模型性能接近,虽大幅降低训练成本但未突破算力Scaling Law壁垒(即强算力需求仍存在),硬件需求仍将持续增长[page::10-11]。
图表14(算力成本与模型性能对比)与图表15(训练硬件需求逻辑):

- 国产训练卡当前缺乏FP8支持,这会导致DS模型运行效率大幅下降,基于FP16等低精度训练对效率影响明显。
- 基于模型拆分,Attention部分计算较少且依赖张量并行高带宽通信,考虑采用少量海外GPU配合部署;MoE模型专家部分可异构分布,部分部署国产卡,但内存和带宽要求高。
- 进一步采用更细粒度专家颗粒度的模型设计(如MH-MoE架构),搭配通信库优化,有望提高国产卡的协同训练能力和性价比[page::12]。
图表16(国产卡与Nvidia卡混合部署训练示意)与图表17(MH-MoE结构示例)


2.9 风险提示
- 生成式AI模型创新不及预期:模型算法及架构细节创新对于行业驱动和技术迭代至关重要,创新减缓会影响行业进步。
- AI算力硬件迭代瓶颈:GPU计算能力和网络通信带宽遇瓶颈将限制大模型训练推理性能提升速度。
- AI应用落地不足:缺乏现象级应用将抑制资本投入和市场热度,影响AI产业链发展[page::13]。
---
三、图表深度解读
(见上述章节内对应图表说明)
特别强调:
- 图表2 DeepSeek MoE与国际大模型参数性能对比清晰展现了DeepSeek通过MoE架构在更低算力下实现与大规模模型媲美的能力;
- 图表4 FP8训练误差呈现FS理想曲线,表明DeepSeek在FP8混合精度训练中保持了训练的稳定性和效果;
- 图表7 GRPO算法显著提升数学推理准确率,证明了强化学习策略在后训练阶段的高效性;
- 图表8-10 硬件并行与编码优化示意深入揭示了DeepSeek硬件工程化方案带来的性能提升路径与挑战。
---
四、估值分析
本报告主要聚焦技术与行业分析,未涵盖传统意义上的估值模型和目标价预测,故无估值方法详情。
---
五、风险因素评估
报告明确指出三大核心风险:
- 模型技术创新瓶颈风险,一旦生成式AI模型创新放缓,算力需求释放及产品更新速度都会受阻,拖慢产业升级;
2. 算力与通信硬件性能增长受限风险,当前大模型训练对GPU算力和网络带宽要求极高,若硬件更新周期拖长,可能限制AI大模型迭代进度;
- AI应用商业落地风险,缺乏成熟且大规模的应用场景,投资回报不明显,资金投入动力不足。
报告未详细量化风险概率,但明确提示风险的现实存在与潜在冲击[page::1,13].
---
六、批判性视角与细微差别
- 报告多处强调DeepSeek的技术创新为“较优解”,但未称其颠覆了现有Scaling Law定律,表明作者保持谨慎和理性态度,避免过度炒作。
- 对MoE架构及低精度训练的讨论细致,但对实际训练中可能出现的不均衡负载、通信瓶颈和数值稳定性挑战仍持开放态度,未隐瞒工程复杂性。
- 报告着重强调PTX代码优化及软硬件一体化的重要性,隐含硬件生态依赖性及国产替代路径充满不确定性。
- 由于大量技术细节源自DeepSeek团队自身论文及技术报告,客观性依赖于数据完整性,独立验证信息有限。
- 文章对国产芯片的适配提出了可能性,并指出精度及通信支持的不足,反映了对国产算力商业化部署的现实谨慎。
- 报告内部对EP/TP策略通信开销分析较为细粒度,避免落入“哪种并行更优”的片面结论,体现出细微的技术平衡理解。
---
七、结论性综合
中金研究部发布的《AI进化论(1):DeepSeek推动 大模型平权,是训练算力的拐点还是黑洞?》报告,以全面详实的技术分析,深刻解构了中国企业DeepSeek在AI大模型训练领域的领先创新及其对训练算力市场的深远影响。
DeepSeek通过技术创新集合了四大核心支柱:基于MoE架构的专家稀疏激活、FP8混合精度训练、多token预测(MTP)机制及高效强化学习策略GRPO,极大幅度降低了训练成本并提升了训练效率。这些优化,联合专家并行和双流水线等分布式计算架构设计,以及以PTX指令为代表的深层硬件调度技术,形成了软硬件协同提升算力利用率的闭环。
报告中的关键图表如DeepSeek 16B模型性能对比(图表2)和FP8训练误差表现(图表4)有力佐证了技术创新的现实效果。强化学习GRPO技术显著提高数学推理能力(图表7),体现后训练阶段的潜力释放。硬件层面PTX代码优化及通信策略展现了大规模模型训练硬件工程改良的趋势。
在市场层面,报告重申了当前预训练模型依旧受Scaling Law限制、训练算力需求持续上升的大趋势,DeepSeek创新属于“平权”而非颠覆,反而可能促进更广泛的算力资源需求释放(图表14、15、16),为国产算力芯片和AI基础设施建设带来挑战与机遇。
同时,报告谨慎指出了生成式AI模型的创新风险、硬件算力与通信瓶颈风险以及AI应用落地不足风险,呼吁关注技术及市场双重驱动的可持续性。
总结来看,DeepSeek技术创新和产业实践或成为国内AI大模型训练领域的标志性里程碑,通过持续的软硬件协同性能提升,实现大模型训练算力“平权”,降低门槛,但未削弱算力增长需求,对训练设备制造商、硬件解决方案企业提出更高要求,也强调国产算力与国际硬件协同发展的重要性[page::0-13]。
---
参考文献与资料来源
- DeepSeek技术论文及报告(2024-2025)
- 中金公司研究部内部分析与解读
- 公开学术论文:《Adaptive Mixtures of Local Experts》(1991), 《Better & Faster Large Language Models via Multi-token Prediction》(Meta 2024), 《FP8-LM Training》(微软2023), 《DeepSeekMath论文》(2024)等
- 公开硬件与并行策略相关技术论文(GShard,Megatron-LM等)
---
总结
本报告文本全面、系统地剖析了DeepSeek团队最新发布的AI大模型训练创新技术,从基础模型设计、训练精度、强化学习、分布式系统架构、硬件底层调度等多个维度进行深度解读,结合丰富的图表佐证核心观点,既体现了技术的创新亮点,也体现了未来训练硬件市场的演化趋势和风险点。报告对AI算力市场从专业视角剖析了“算力平权”背后的机遇与挑战,对行业投资者、技术开发者以及政策制定者具有重要参考价值。