AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相
创建于 更新于
摘要
本报告深度解读NVIDIA GTC 2025大会,聚焦AI硬件发展的超摩尔定律路径、三年内GPU及系统产品升级路线,以及推动算力提升的CPO共封装光学技术与成果。重点分析了算力需求端扩展到后训练和实时推理、新型Dynamo推理引擎优化资源利用,以及CPO交换机的技术构成、挑战与未来应用前景,展望AI硬件生态技术创新驱动行业中长期增长 [page::0][page::1][page::3][page::5][page::6][page::9]
速读内容
NVIDIA GTC 2025大会核心主题与Scaling Law扩展 [page::0][page::1]

- NVIDIA CEO强调整体算力需求由传统预训练向后训练、实时推理两个方向扩展,令tokens消耗大幅增加。
- 2028年全球数据中心资本开支预计突破1万亿美元,算力市场规模迎来新拐点。
- Dynamo推理软件支持分布式推理,通过Prefill/Decode分离模式提升多GPU资源利用率。
超摩尔定律驱动GPU与系统产品演进 [page::3][page::4][page::5]
- Blackwell、Vera Rubin、Rubin Ultra三代GPU对算力与内存容量实现三年10倍提升,采用更先进制程和架构设计(如Chiplet分离I/O die)。
- 系统层面NVL系列产品密度从8至576颗GPU die逐步提升,带宽与存储带宽大幅加码,推动高密度集群算力。
- 网络通信方向NVLink 6/7代交叉互联大幅提升GPU内互连带宽,Connect-X9/10智能网卡协同InfiniBand和以太网CPO交换机实现机间高速互联。
CPO共封装光学技术介绍与产业化进展 [page::5][page::6][page::7]

- CPO将光引擎与ASIC芯片通过先进封装异构集成,缩短光电互连距离,提升带宽效率和信号质量。
- 2025年下半年起,Quantum CPO交换机有望量产交付,2026年后Spectrum系列交换机陆续投入商用。
- 采用微环调制器(MRM)实现单通道200Gbps,能耗低于传统方案3.5倍,但面临温度敏感性和制造工艺难度。
CPO技术挑战与未来展望 [page::9]

- 高热流密度导致散热难题,液冷系统成本和复杂度较高,需技术突破降低能耗与维护难度。
- 组件深度集成导致维修复杂,现阶段光引擎非模块化更换方案增加维护成本。
- 供应链不成熟与精密封装工艺推高制造成本,短期或影响CPO规模推广速度。
- 科技进步和产业链协同有望缓解上述问题,推动光器件及先进封装成为核心增长点 [page::9].
深度阅读
中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相——详尽深度解析报告
---
1. 元数据与概览
- 报告标题:《AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相》
- 作者及发布机构:成乔升、李诗雯等,中金公司研究部
- 发布日期:2025年3月28日
- 主题议题:聚焦NVIDIA GTC 2025大会,全面解读AI硬件行业最新技术演进,特别是超摩尔定律在芯片设计和系统架构中的延续,以及共封装光学(CPO)技术在网络通信领域的突破和产业化趋势。
- 核心论点:
- NVIDIA通过GTC 2025展示了深度的AI算力需求侧演进以及供给侧的技术革新。
- 超摩尔定律路径依然有效,GPU与服务器产品性能大幅提升,带动整体系统级算力爆发。
- CPO技术正式亮相并进入产业化初期,尽管面临散热、维护难度等挑战,但前景光明,有望成为未来网络通信的关键增量方向。
报告传递了对NVIDIA持续引领AI硬件技术升级的肯定,同时对CPO产业化道路的审慎乐观。报告未明确给出评级或目标价,重点聚焦产业技术趋势和市场前景分析。[page::0,1,3,5]
---
2. 逐节深度解读
2.1 报告摘要与引言
- NVIDIA CEO Jensen Huang主旨演讲长达两小时,全面分析AI硬件行业发展,从需求端的Scaling Law拓展到供给端新品。
- 强调AI计算需求的Scaling Law不仅覆盖预训练,还扩展至后训练和实时推理,刺激token消耗增长,推动市场算力需求提升。
- GTC 2025发布的CPO相关通信技术是此次大会重点亮点,代表网络通信向光电融合及高密度集成迈进的关键步骤。
- DeepSeek开源大模型引发对算力需求通缩的担忧,NVIDIA以软件和硬件创新回应,推出Dynamo推理引擎优化推理效率[page::0,1]。
2.2 行业需求侧分析:Scaling Law三维演进与Dynamo推理软件
- 核心论点:
- Scaling Law由过去单一预训练阶段扩展至后训练、长思维链推理(“long thinking”)三个维度,令token需求呈爆炸式增长。
- 强化学习(RL)利用大量token合成数据解决数据匮乏,推动后训练算力需求。
- 推理阶段,由单次预测转向联结多步推理(思维链CoT),token消耗激增。
- 依据和证据:
- 图表1展示“从一个到三个Scaling Law”的演变路径,图解预训练扩展到后训练和测试阶段的算力需求增长。
- 2028年数据中心资本开支预计超过1万亿美元,说明算力投入持续增长需求庞大(见图表2)。
- 数据解读:
- 图表2(柱状图)清晰展现2022-2028年数据中心资本支出的快速提升,预计到2028年超1万亿美元规模,反映AI产业投入的爆发态势。
- 推理与假设:
- 开源大模型(DeepSeek)使算力成本下降,但对算力需求总量产生压制的担忧被新的Scaling Law扩张所化解。
- 未来AI算力需求因应用复杂度提升而加速,推动硬件升级与新品迭代[page::1,2].
2.3 供给端硬件创新:超摩尔定律路径延续与系统级产品升级
- 主要内容:
- NVIDIA宣布未来三年数据中心GPU新品路线,从Blackwell Ultra(2025年下半年)到Rubin Ultra(2027年)继续推进超摩尔定律,实现三年翻10倍的FP4密集算力提升。
- Jensen s Math新命名方法:以GPU die数量计算机柜内GPU总数,展示算力系统化增长逻辑。
- Blackwell Ultra采用新设计,包括新注意力机制指令集,算力提升50%,内存升级至288GB HBM3E。
- Vera Rubin系列采用先进TSMC 3nm工艺,移除I/O die设计到独立Chiplet,实现单die性能提升和扩展计算单元。
- 系统产品从NVL 8/72发展到NVL 16/144,最终2027年达到NVL 576规模(576 die,144个封装单元)。
- CPU方面引入全新自研Arm核心Grace系列,支持高达1.8TB/s的GPU-CPU互连带宽。
- 关键数据解释:
- 表4显示芯片与封装规格,包括功耗、制程节点、FP4算力、HBM容量及堆叠层数、带宽,从2022年H100到2027年Rubin Ultra均显著跃升。
- 表5详列系统层级规格,涵盖GPU封装数、die总数、FP4浮点总算力、HBM容量及带宽,展示庞大系统规模和资源整合能力。
- 技术亮点:
- 先进封装引入四Chiplet设计,显著放大计算面积,为未来算力跳跃提供路径。
- FP4数据类型维持在最低精度保证算力效率和性能平衡。
- 逻辑推断:
- 通过多维技术合力(制程、芯片设计、封装架构、系统带宽)实现超摩尔定律路径的延续。
- 交付节点明确,保证供应链和客户需求同步对接,推动产业链升级稳步推进[page::3,4].
2.4 硬件通信网络更新:C2C/B2B联合迭代与CPO技术亮相
- Scale-Up网络升级:
- NVLink升级至6/7代,实现更大带宽(144个Rubin GPU带宽达260TB/s,Rubin Ultra预期NVL576迈向1.5PB/s),提升GPU间通信效率,强化集群性能。
- Scale-Out网络升级:
- 采用Connect-X9智能网卡和Spectrum系列交换机,带宽成倍增长,边际设计支持计算卸载,整体网络效率提升。
- 未来引入Connect-X10和204T Spectrum7交换机,持续推动机柜间高速互联能力突破。
- CPO技术具体介绍:
- CPO(Co-Packaged Optics,共封装光学)是一种将光引擎和ASIC芯片通过先进封装技术集成于同一封装体的新兴技术,显著缩短光电互连距离,降低信号衰减和功耗,提高带宽和信号质量。
- 典型CPO结构基于液冷方案,解决高热密度带来的散热难题,且采用可插拔光连接器来改善维护难度。
- WL-CPO(Wafer-Level CPO,晶圆级封装)方案将封装提升至硅中介层集成,进一步提高互连密度和性能。
- 图表说明:
- 图6详细示意CPO和WL-CPO的结构差异,强调集成层级与互连技术的演进。
- 图7显示了CPO产品路线,包括量产预期和技术实现方式。
- 发布具体产品:
- 三款CPO交换机亮相:Quantum-X 3450-LD InfiniBand交换机、Spectrum SN6810 与 SN6800 以太网交换机。
- Quantum-X预计2025年下半年量产,Spectrum系列预计2026年下半年交付。
- 这些产品采用液冷设计,同时搭配微环调制器(MRM)实现低功耗硅光调制(节能3.5倍)。
- 技术挑战与发展路径:
- 当前CPO面临散热、维护和整体TCO较高的问题,液冷方案与可插拔方案分别针对不同痛点提供解决思路,但仍需优化。
- 长期看,伴随技术成熟及成本下降,CPO有望成为高速光互连的主流,驱动光器件及先进封装市场大幅增长。
- 微环调制器与传统MZM对比:
- MRM体积小、电压低、功耗低但温度敏感,制程复杂。
- MZM稳定性高但体积功耗大。
- 图表9表格清晰对比MZM与MRM的关键性能差异,视觉强化技术差异[page::5,6,7,9]。
2.5 量产交换机拆解与架构详解
- Quantum-X 115.2Tb/s InfiniBand CPO交换机结构详细拆解:
- 每台装配4颗28.8Tb/s Quantum-X800交换ASIC。
- 每颗ASIC配备6个可拆卸光学封装组件,组件内部有3个1.6T硅光引擎和3个可插拔光纤阵列连接器。
- 硅光引擎基于台积电3nm COUPE工艺,使用MRM进行200Gb/s单通道调制。
- 交换机配备18个外置激光源模组(ELS),每模组含8颗CW光源。
- 光纤连接采用144个MPO接口,保障高速光信号传输。
- 图表10和11清晰标示ASIC与光引擎布局,以及单个光学封装结构。
- 关键意义:
- 该架构体现了NVIDIA将先进光组件集成于ASIC周边,提升交换机带宽和能效的能力。
- 可拆卸组件设计为维护和升级提供了便利,部分缓解CPO维护难度。
- 高热密度需液冷配合精准温控。
- 光器件可靠性、故障率及与电子元件的耦合仍是变革关键阻碍。
- 目前TCO仍处高位,规模商用还有待成本下降、良率提升[page::8,9]。
2.6 风险因素分析
1. 生成式AI模型进展及商业应用落地不及预期,可能导致市场需求萎缩。
2. 新品研发与量产节奏不达标,拖累整体硬件迭代、客户升级计划。
3. CPO技术攻关面临挑战,散热、封装工艺及成本问题可能限制市场渗透。
- 每项风险均具体点明对产业和客户影响,提示投资者关注执行风险和技术突破难度。[page::1,10]
---
3. 图表深度解读
3.1 图表1(Scaling Law扩展示意)
- 展示从单维“预训练”扩展到“三维”Scaling Law,包括预训练/后训练/测试时长推理的递进。
- 强调后训练阶段和长思维链推理阶段token需求显著增加,推动AI算力需求新阶段。
- 图形逻辑清晰,突显AI智能“进阶”中的计算需求翻倍逻辑,与文本相辅相成[page::1]
3.2 图表2(数据中心资本支出预测)
- 2022-2028年数据中心资本开支柱状图,预测2028年支出首次突破1万亿美元,远高于NVDA单一业务营收规模。
- 反映行业算力需求及设备投资爆发性增长背景。
- NVDA营收柱较小但增长显著,暗示半导体核心供应商价值体现[page::2]
3.3 图表3(推理任务吞吐与响应速度权衡)
- 描绘单用户Token处理速率与整体系统吞吐的权衡关系。
- 提示需求不同阶段需平衡硬件资源利用率与用户体验,Dynamo推理框架针对性优化。
- 体现推理软件技术演进对算力持续释放的重要支撑[page::2]
3.4 图表4&5(芯片与系统对比)
- 表4按时间序列跟踪GPU性能指标,突出FP4浮点性能、HBM容量与带宽提升的量级跃迁。
- 表5展示系统级配置,显现从8到576个GPU die的扩展趋势,系统算力指数级增长。
- 说明新颖命名方式(以die计数)、新工艺(3nm)、Chiplet设计策略及系统互联宽带的深化布局[page::3,4]
3.5 图表6(Scale-Up/Scale-Out网络迭代)
- 展示NVLink代际升级带宽提升与互联技术演进。
- Scale-Out中Connect-X和Spectrum交换机带宽及技术路径清晰。
- 支持网络技术双轨进化,协同推动大规模AI集群性能提升[page::4,5]
3.6 图表7(CPO与WL-CPO结构示意)
- 通过分层结构图对比CPO与晶圆级封装WL-CPO,聚焦封装级别、光学组件位置与互连细节。
- 体现光电共封装技术进阶,强调未来技术方向[page::6]
3.7 图表8(发布的三款CPO交换机实物图)
- 三款实物展示,Quantum-X Photonics预期2025年问世,带宽115.2Tb/s。
- Spectrum系列2026年起系列产品搭载高端800G端口。
- 阐明产品量产时间节奏与设计风格[page::7]
3.8 图表9(硅光调制器原理对比)
- T表形式比较MZM(马赫-曾德尔)与MRM(微环)方案:
- MZM体积较大、功耗高但稳定性好。
- MRM体积小、功耗低但温度敏感。
- 占位调制效率、尺寸及功耗指标,表明MRM正逐步取代传统调制技术,成新品中的关键技术环节[page::7]
3.9 图表10&11(Quantum-X ASIC芯片与光学组件)
- 量产交换机核心芯片四周均匀布置18个高带宽(1.6T)的硅光引擎。
- 单个可拆卸光学耦合组件内部结构细节,配套小型光纤阵列连接器面向可维护性设计。
- 核心技术布局与产品组装逻辑一目了然,突出复杂高端封装设计的挑战与价值[page::8,9]
---
4. 估值分析
- 报告未直接涉及财务估值、目标价格或具体盈利预测,重点为技术架构与产业应用趋势分析。
- 估值相关内容主要围绕产业资本投入规模(如2028年数据中心资本开支超过1万亿美元),暗示算力硬件市场成长爆发性。
- 通过技术路线图、产品量产规划披露,隐含对企业中长期业绩稳定增长的信心基础[page::1,2]
---
5. 风险因素评估
- 技术创新不及预期,特别是大模型和商业化应用落地进展缓慢,将直接压制算力需求,影响行业规模扩展。
- 下一代GPU、NVLink及智能网卡等产品技术与量产周期滞后,将延缓客户集群升级及市场活跃度。
- 依托先进封装(TSV、TGV、混合键合等)需克服散热、制造良率和成本控制挑战,技术难度及产业生态完善度影响CPO普及节奏。
- 在风险提示部分,报告提供充分细致的潜在障碍分析,但未给出具体概率或缓解措施,显示该领域仍处于技术密集探索阶段[page::1,10]
---
6. 批判性视角与细微差别
- 报告观点较为积极,重点强调超摩尔定律延续和CPO技术潜力,在技术升级路径描述中使用大量权威数据与具体产品路线图,增强说服力。
- 但对DeepSeek可能带来的算力通缩担忧仅做简要回应,未深入分析开源模型对传统硬件需求的破坏性影响,潜在偏向于硬件厂商需求增长视角。
- 关于CPO挑战,详尽指出散热、维护和成本等痛点,但未提供具体时间表和预计攻克方案,表明技术成熟路径尚不确定。
- NVIDIA提出以die计数计算系统GPU规模的“Jensen s Math”虽创新,但实际带来的架构复杂性和后续管理难度论述较少,需关注该方法的产业适应性。
- 部分图表来源及部分英文排版混杂,显示报告在图文整合时有细节打磨空间。
- 报告较少涉及竞争对手态势或替代技术框架,形成一定视角局限性。
- 综合看,报告逻辑严谨但需持续关注产业政策、市场动态等外部变量[page::0-10]
---
7. 结论性综合
本报告系统梳理了NVIDIA GTC 2025大会后,AI硬件产业链的新技术演进与未来趋势,归纳核心如下:
- 供给端:NVIDIA遵循超摩尔定律持续推进芯片制程升级、架构创新与先进封装设计,系统级产品规模与性能迅猛发展,GPU die数量成为衡量计算资源的全新标准。
- CPO技术突破:光电子共封装技术首次大规模展出,三款高性能CPO交换机2H25-26量产,液冷与可插拔光纤方案缓解散热和维护难题,尽管成本及可靠性挑战依然存在,长远看CPO将是高速网络互联关键技术。
- 风险提醒:生成式AI技术进展、硬件新品节奏与CPO攻关的三大风险是行业发展不可忽视的变量,市场对此应保持审慎关注。
整体而言,报告对AI硬件产业链尤其是NVIDIA最新技术动态进行了全面系统的解析,展现了超摩尔定律下硬件持续升级带来的行业爆发势能以及光电融合时代的通信创新,为投资者和业界提供了丰富的参考视角。
---
本次报告深入剖析了NVIDIA GTC 2025的关键技术与市场趋势,体现了AI硬件行业在算力规模、封装工艺、通信网络及软件优化多层面的协同前行,勾勒出未来AI基础设施演进的清晰路径。[page::0-10]
---
备注:相关图表Markdown示例
- 图表1(Scaling Law路径图):

- 图表2(数据中心资本开支预测):

- 图表3(推理吞吐权衡):

- 图表6(Scale-Up/Out网络路线图):
(由于为html表格,此处省略markdown格式)
- 图表7(CPO与WL-CPO结构示意):

- 图表8(三款CPO交换机实物图):

- 图表10(Quantum-X ASIC核心布局):

- 图表11(光学封装组件内部结构):

---