AI进化论(2):模型 $+$ 工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海
创建于 更新于
摘要
本报告深入分析了DeepSeek团队在模型推理领域的创新,包括多头潜在注意力机制(MLA)与原生稀疏注意力机制(NSA)两大核心技术,结合硬件工程优化策略(如Prefill/Decode分离及高专家并行度方案),显著提升推理效率与硬件资源利用率。同时,分布式集群推理趋势带动以太网设备需求增长,国产算力链快速适配DeepSeek生态,云端大规模推理硬件需求迅速释放,对下游市场构成强力拉动。[page::0][page::2][page::4][page::6][page::9][page::11][page::12]
速读内容
DeepSeek模型创新:MLA与NSA优化推理算力 [page::0][page::1][page::2][page::3][page::4]

- MLA通过压缩KV Cache显著降低存储需求,不增加计算量,提升推理性能,优于传统多头注意力机制(MHA)。
- NSA采用原生稀疏注意力,通过Token压缩、选取和滑动窗口方式,压缩序列长度,实现长文本高效建模。
- NSA结合定制GPU内核实现高性能推理,解码速度在64k上下文长度可提升11.6倍,明显低延迟优势。
硬件工程创新:Prefill/Decode分离与高专家并行度 [page::5][page::6][page::7]



- 推理流程拆分为预填充(计算密集)和解码(存储密集)两阶段,实现硬件资源最佳配置。
- Prefill采用4节点32GPU,Decode采用40节点320GPU,提升并行度,Decode阶段使用EP320极大增加吞吐。
- 动态冗余专家部署策略有效平衡GPU负载,降低通信瓶颈,提高推理效率。
推理集群及网络需求:推动以太网设备投资机会 [page::8][page::9][page::10]



- GPU推理需求推动单机向分布式集群演进,推理规模与性能提升显著。
- 以太网因带宽与低时延优势,成为scale-up和scale-out网络中的关键连接技术,市场渗透率持续提升。
- InfiniBand虽占据TOP100更多份额,但以太网凭借经济性与普适性逐年追赶,应用场景逐渐增多。
量化推理硬件需求测算与国产算力全链条适配 [page::11][page::12][page::13]


- 基于微信接入DeepSeek模型的规模化推理需求测算,需数十万张NVIDIA Hopper GPU,为硬件市场带来爆炸式增长。
- 国产芯片、服务器及整机厂商全方位适配DeepSeek,推动国内算力生态快速成长。
- 以国产软硬件协同优化为核心,将促进AI应用加速落地与产业链升级。
主要风险提示 [page::0][page::13][page::14]
- 生成式AI模型创新进展不及预期,可能拖慢技术迭代节奏。
- AI算力硬件技术能力及网络通信可能出现瓶颈,限制性能提升。
- AI应用商业化落地不达预期,影响产业资本投入积极性。
深度阅读
中金 | AI进化论(2):模型 + 工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海——详尽分析报告
---
1. 元数据与概览
- 标题:《AI进化论(2):模型 + 工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海》
- 作者:成乔升、彭虎等,中金研究团队
- 发布日期:2025年2月28日
- 发布机构:中金公司
- 主题:探讨DeepSeek技术对AI推理任务的创新及其对算力硬件需求的影响,重点分析DeepSeek模型的推理层面创新、分布式推理的硬件工程优化及其市场机会,特别关注国产算力链的适配情况与以太网在推理集群中的潜力。
核心论点:
- DeepSeek技术创新在推理环节带来模型与硬件的双重提升,包括MLA和NSA注意力机制优化KV缓存与序列长度,显著减少推理的内存与计算开销。
- 推理阶段采取了Prefill/Decode任务分离与高专家并行度策略,以充分利用硬件性能。
- 推理需求进入集群时代,以太网通信设备迎来机遇,国产算力链全面适配DeepSeek,推动AI算力生态升级。
- 微信接入DeepSeek模型预计带动数十万GPU的推理卡采购需求,代表大规模推理部署的市场爆发潜力。
- 研究严肃指出风险包括模型创新与算力硬件迭代速度不及预期,及AI应用落地进展放缓的可能性。
该报告通过深入剖析DeepSeek在推理模型和硬件架构上的创新细节,紧密联系推理市场需求的演变,提出分布式推理硬件及国产算力产业迎来重大发展机遇的判断。[page::0,1,11,12]
---
2. 逐节深度解读
2.1 模型创新
2.1.1 多头潜在注意力机制(MLA)
- 关键论点:DeepSeek引入的MLA机制通过压缩KV Cache,大幅降低推理占用的存储空间,而不增加额外计算量,实现存储与性能的双重优化。
- 推理依据:
- 传统Transformer的多头注意力(MHA)在长序列处理时,KV Cache内存占用巨增,限制推理效率。
- 现有压缩模型(MQA、GQA)虽减小KV缓存规模,但性能低于MHA。
- MLA不存储完整KV,而是存储低秩变量C并投影至隐空间,推理时重构KV,转换访存密集任务为计算密集任务,通过矩阵融合技术避免增加计算开销。
- 关键数据:
- MLA仅存储相当于2.25组GQA的KV缓存,但实际性能优于性能强劲的MHA。
- 两个不同规模(16B与250B参数)的MoE模型在多基准测试中,MLA均优于MHA。
- 结论:MLA在减小内存占用同时提升推理效率,具有显著优势,适合长文本和大参数模型推理需求。[page::1,2]
2.1.2 原生稀疏注意力机制(NSA)
- 关键论点:NSA创新地从序列长度维度压缩计算,通过分层字符建模实现对长文本数据的高效推理。
- 方法详解:
- NSA将键值对分割为时间块,采用三条注意力路径并行处理:
1. Token压缩:块内聚合压缩,保留全局语义。
2. Token选择:基于注意力得分选择Top N块参与计算。
3. 滑动窗口:维持局部上下文连续,防止遗漏重要细节。
- 硬件工程:
- NSA设计定制GPU核函数,实现在硬件层面减少内存访问,提升并行度。
- 共享KV块加载、组中心数据加载减少冗余,利用NVIDIA Triton网格调度器优化任务调度。
- 实证表现:
- NSA在64k上下文长度下,解码速度可达11.6倍加速。
- 训练过程也获益明显,前向加速9倍,反向加速6倍。
- 对比分析:MLA注重全局潜在视角压缩 KV Cache,NSA专注压缩序列长度兼顾局部与全局信息,未来DeepSeek或将结合两者优势以提升模型能力。
该机制解决了生成式AI长文本推理中的计算瓶颈问题,极大提高推理效率和内存使用率。[page::3,4]
2.1.3 机制整体对比
- 图表7综合对比MHA、GQA、MQA、MLA与NSA准确性和性能,显示MLA和NSA均在模型压缩和计算效率上取得显著突破。
---
2.2 硬件工程化创新
2.2.1 Prefill/Decode分离架构
- 核心观点:推理阶段将预填充(Prefill)和解码(Decode)两个计算需求不同的任务拆分,分别部署在不同硬件资源上,实现效率最大化。
- 推理依据:
- Prefill阶段生成KV Cache,计算密集,需更高计算资源。
- Decode阶段频繁访问KV Cache,存储密集,延迟敏感。
- 单一设备难兼顾两阶段高效运行,分离架构平衡需求优势明显。
- 数据表现:
- 图表8显示Prefill吞吐随批大小迅速达到峰值,Decode吞吐增长缓慢且受序列长度影响更大。
- 具体部署:
- Prefill采用32专家并行(EP32)、4节点32GPU配置,保证批量和计算效率。
- Decode采用320专家并行(EP320)、40节点320GPU配置,优化延迟,平衡通信。
- 配置冗余专家及动态冗余负载均衡,避免瓶颈和负载冲击。
- 技术难点:Decode阶段高并行度带来的网络通信挑战需高级并行策略与通信优化支持。
2.2.2 并行策略详述
- 张量并行(TP):细分模型张量操作至多个GPU,每GPU承担张量部分计算。
- 专家并行(EP):多个专家(MoE)分布在不同GPU,模型稀疏激活分摊硬件压力。
- 图表9和10呈现TP与EP的硬件分布,展现DeepSeek大模型实现多维度并行的清晰架构。[page::5,6,7]
---
2.3 推理硬件需求与市场洞察
2.3.1 推理集群演变及网络设备机会
- 趋势:
- 推理需求暴增,单卡难以满足大规模MoE模型部署,向分布式多节点集群迁移。
- DeepSeek全血版671B模型需数十台高性能服务器,体现分布式部署刚需。
- Scale-Up超节点:
- 以NVIDIA NVL72为例,72块GPU实现近30倍吞吐量提升。
- 中国信通院推动ETH-X计划,超节点GPU单卡吞吐量预估提升30%。
- 以太网市场前景:
- 以太网带宽增长迅速,商用产品已达51.2Tbps,预计2025年推102.4Tbps,领先PCIe5.0交换芯片。
- 以太网时延降低至200ns以下,具备取代PCIe的潜力。
- 规模化案例如Intel Gaudi-3集成以太网,凸显以太网生态成熟。
- InfiniBand在TOP100超算中占比高,但以太网成本更低、应用更普及,TOP500占比趋近。
- 结论:以太网凭借带宽与时延优势以及成本优势,在未来推理集群Scale-Up与Scale-Out网络中双重渗透,构成重要投资机会。[page::8,9,10,11]
2.3.2 广泛部署带来的推理硬件需求爆发
- 推理成本下降带动推理需求激增,特别是日活用户级APP(微信)接入DeepSeek模型,估算需新增40万NVIDIA Hopper GPU。
- 显存占用小、激活值层层丢弃策略使高并行度推理成本可控。
- 国产算力产业链快速反应,超过160家企业完成DeepSeek适配,涵盖芯片、服务器、云计算等,实现全产业链联动。
- 云厂商积极布局DeepSeek推理服务,推动AI应用落地,形成硬件需求闭环。[page::11,12,13]
---
2.4 风险因素
- 生成式AI模型创新不足:抓住技术实现复杂细节的突破是产业升级动力,停滞会拖延整体发展。
- AI算力硬件技术瓶颈:算力性能和网络通信速率若未达需求,上述创新难以发挥应有价值。
- AI应用落地缓慢:缺少爆款应用影响资本投入和市场信心,抑制资金流入和生态繁荣。
风险清晰指出未来创新及投入的双重挑战,具有预警意义。[page::0,13,14]
---
3. 图表深度解读
- 图表1(MHA、GQA、MQA、MLA对比)(page 1)
该图显示四种注意力机制中KV、Key、Value、Query的结构差异。MHA全量保存所有Key和Value,内存消耗最大;GQA与MQA通过压缩Key/Value规模减少资源,但牺牲性能;MLA创新存储低秩投影,极少存储但可动态重构,解决了MHA的存储瓶颈。
- 图表2(DeepSeek MLA实现流程)(page 2)
细致展示输入隐空间向量如何通过concat及RoPE应用,组合生成Query、Key、Value,实现动态KV重构与缓存优化,说明MLA机制底层原理。
- 图表3(MoE 模型不同注意力机制表现比较)(page 2)
实测对比MLA较MHA优化了推理性能和效率,充分验证MLA的实际应用价值和技术先进性。
- 图表4-6(NSA机制及性能表现)(page 3-4)
- 图4呈现NSA架构中Token压缩、选择和滑动注意力的模块划分,直观表达NSA对序列的分块及稀疏处理。
- 图5示意NSA GPU内核的分组数据加载和任务调度机制,硬件层面的优化细节。
- 图6明确展示NSA相比全注意力机制在内存访问效率上的显著优势,尤其在超长上下文(64k)时效能爆发。
- 图表8(Prefill/Decode吞吐与BatchSize关系)(page 5)
描绘Prefill阶段吞吐迅速达到峰值与Decode阶段多受序列长度影响性能瓶颈,体现分离策略合理性。
- 图表9-10(Tensor Parallel与Expert Parallel部署示意图)(page 6-7)
清晰具象化说明DeepSeek大模型如何通过张量和专家并行拆分任务,高效利用分布式GPU资源。
- 图表11-12(推理显存需求与专家并行度对比)(page 7-8)
展示随着专家并行度增加及模型参数规模大幅攀升,单卡显存需求紧张,驱动分布式集群架构必要性。
- 图表13-14(英伟达超节点性能提升及ETH-64吞吐提升)(page 9)
NVL72超节点单卡推理速度是传统HGX H100的约30倍,ETH-64系统单GPU吞吐量提升30%,突出scale-up网络对推理性能和效率的决定性影响。
- 图表15-16(InfiniBand与以太网在TOP100/500的占比趋势)(page 10-11)
表现以太网市场占有率快速增长趋势,InfiniBand份额下降,表明以太网已具备挑战传统高性能互联的实力。
- 图表17(推理硬件需求逻辑流程图)(page 11)
系统化展示MLA、NSA、Prefill/Decode分离、高度EP对推理成本下降和需求增长的内在逻辑链条。
- 图表19-20(国产算力产业链适配情况与服务器性能对比)(page 13)
列举芯片、整机、云端等产业链多维度配套国产方案,加速本土AI算力生态构建与DeepSeek适配。
---
4. 估值分析
报告中未直接给出估值模型、目标价或财务预测,但通过对DeepSeek推理硬件的市场需求及规模测算,隐含了:
- 基于DeepSeek模型引发的推理卡需求数十万级的需求爆发预期;
- 以太网通信设备及国产GPU服务器等相关硬件的增长潜力;
- 资本投入预计随推理硬件市场需求同步迅猛扩张。
估值分析主要侧重于产业链需求导向和技术竞争力对应前景的逻辑演绎。
---
5. 风险因素评估
- 生成式AI模型创新不足,会阻碍精细算法与硬件协同优化。
- 算力硬件迭代瓶颈(GPU性能及网络带宽不足)会限制模型规模及推理性能提升。
- 应用落地不明显导致资本出现谨慎态度,影响资金投入节奏。
- 报告未给出风险发生概率,但明确提示风险对链条各环节的可能拖累,属于全面覆盖。[page::0,13,14]
---
6. 批判性视角与细微差别
- 报告聚焦DeepSeek优化方案及推理硬件扩容带来的机遇,展现乐观态度。
- 其模型创新与工程化创新间高度绑定,虽然创新点众多,但长期有效性及对行业普适性的适配亟需通过市场应用进一步验证。
- 70%以上论述围绕DeepSeek,缺少对其他竞争模型或方案的比较,可能对DeepSeek的相对优势评价具有一定主观倾向。
- 分布式推理网络通信压力大,对专用网络设备及架构提出极高要求,报告虽提及挑战,但未深度分析解决方案风险。
- 风险提示面向通用风险,缺少对国产算力脱钩或国际制裁等地缘政治风险的独立考量。
整体报告基于大量技术细节和数据,较为严谨且信息丰富,但未来行业动态变化及技术演进可能带来不同格局,需要持续跟踪。
---
7. 结论性综合
本报告系统地揭示了DeepSeek在AI推理任务中的关键技术进步与工艺创新,具体表现为:
- 模型端,通过MLA压缩KV缓存和NSA稀疏计算机制,有效降低内存占用与计算复杂度,保障长文本和大型MoE模型的高效推理。
- 硬件端,采取Prefill/Decode分离策略和超高专家并行度部署(EP320),兼顾计算密集与存储密集任务,提高硬件资源利用率及推理吞吐。
- 网络通信,分布式推理推动Scale-Up及Scale-Out网络架构转型,以太网凭借性能提升和成本优势正获得显著市场渗透,代表未来推理集群必备网络技术。
- 市场机会,推理需求大幅增长,尤其面向亿级用户APP的深度集成激发新一轮算力采购热潮,数十万GPU增量需求驱动推理硬件市场蓬勃发展。
- 国产算力生态,形成芯片、整机、云服务多维度适配DeepSeek的产业链强化,助力国产AI算力产业升级和自主可控战略。
- 风险管理,报告从技术创新、硬件迭代及应用落地三大风险维度作出前瞻性警示,为投资和技术研判提供风险参考。
全文图表细致支撑观点,统一呈现技术路径与市场逻辑的闭环。报告整体立场积极,展望DeepSeek通过软硬协同驱动的推理能力提升,将催生AI推理硬件需求大爆发,助推以太网和国产算力产业格局加速演进。[page::0-14]
---
附:核心图片实例示范
- 图表1 MLA与传统注意力机制对比:

- 图表4 NSA架构示意:

- 图表8 Prefill和Decode吞吐差异:

- 图表13 GB200 NVL72与HGX H100对比:

- 图表19 国产算力产业链图:

---
综上所述,中金报告详细展示了DeepSeek模型与工程创新如何有效唤醒计算资源,推动推理算力市场规模爆发,以及以太网与国产算力产业链借助该浪潮的投资机会,为行业参与者和投资者提供了丰富的技术洞察和市场判断指引。