中金 | AI进化论(10):GTC2025,从Agentic AI到Robotic AI
创建于 更新于
摘要
本报告围绕2025年英伟达GTC大会的最新技术演进,系统梳理Agentic AI、Robotic AI阶段的技术突破与产业布局。重点介绍了Isaac GR00T N1通用基础模型、银河通用合成大数据训练及群核SpatialVerse数据平台,推动人形机器人技术的飞跃;同时,英伟达自动驾驶生态完善,VLA模型成为高阶智驾商业化的核心驱动力。报告还详细分析了自动驾驶端到端与VLM模型的融合发展及相关产业链机会,建议关注智能硬件、机器人及自动驾驶领域的技术创新和应用扩展 [page::0][page::3][page::4][page::5][page::6][page::8][page::9][page::11][page::12][page::13]
速读内容
AI技术三代范式跃迁及产业升级 [page::0][page::1]

- AI经历判别式AI、生成式AI、Agentic AI三个发展阶段,Agentic AI具备自主推理规划执行能力,实现智能体应用突破。
- 英伟达打造多版本Agentic AI模型和硬件(Blackwell Ultra GPU),加速复杂决策准确率与推理速度提升。
人形机器人基础模型Isaac GR00T N1技术突破 [page::3][page::4][page::5]

- GR00T N1基于合成数据、双系统(慢思维视觉语言模型与快思维扩散变换器)构建,支持单一权重适配多机器人。
- 数据采集采用网络数据、合成数据及真实机器人远程操作数据的金字塔结构,训练效率及任务泛化能力显著提升。
- 在多种模拟标准及实景任务中,GR00T N1均表现出优于传统扩散策略的抓取和执行准确率。
| 模型 | RoboCasa | DexMG | GR-1 | Average |
|-------------------------|----------|--------|--------|---------|
| BC Transformer | 26.30% | 53.90% | 16.10% | 26.40% |
| Diffusion Policy | 25.60% | 56.10% | 32.70% | 33.40% |
| NVIDIA Isaac GROOT N1 2B| 32.10% | 66.50% | 50.00% | 45.00% |
| 模型/数据量 | Pick-and-Place | Articulated | Industrial | Coordination | Average |
|---------------------------|----------------|-------------|------------|--------------|---------|
| Diffusion Policy (10% Data)| 3.00% | 14.30% | 6.70% | 27.50% | 10.20% |
| NVIDIA Isaac GROOT N1 2B (10% Data)| 35.00% | 62.00% | 31.00% | 50.00% | 42.60% |
| Diffusion Policy (Full Data) | 36.00% | 38.60% | 61.00% | 62.50% | 46.40% |
| NVIDIA Isaac GROOT N1 2B (Full Data)| 82.00% | 70.90% | 70.00% | 82.50% | 76.80% |
合成大数据驱动机器人训练数据获取创新 [page::6][page::7][page::8][page::9][page::10]

- 银河通用提出合成大数据方法,构建百万级灵巧手动作数据集,解决远程操作采集成本高、效率低的问题。
- NaVid基于7B参数端到端模型,实现视频与语言指令联动的机器人导航,在未见环境也能完成导航任务。

- 群核科技SpatialVerse通过酷家乐3.6亿模型素材,构建高质量数字孪生资产库,支持自动化标注与物理真实仿真。


- AIRSPEED数据生产平台在具身智能机器人生态中起关键桥梁作用,解决数据孤岛、软硬件解耦和数据评估瓶颈,实现模型迭代加速6倍。
英伟达自动驾驶软硬件生态升级,迈向端到端与VLA融合应用 [page::11][page::12][page::13]

- Drive AGX Thor芯片和Omniverse数字孪生平台协同,为自动驾驶全场景提供硬件算力、算法、模拟数据和安全保障。
- Halos全栈式安全系统覆盖芯片至车端,推进端到端自动驾驶算法的安全性及可信度。
- 理想汽车MindVLA融合空间智能(3D高斯表征)、语言智能(Sparse Attention)、行为智能(快慢思维融合)和强化学习,为高阶智驾赋能,预计2025年7月量产。
- 小米、商汤、元戎启行等多家企业均推进端到端与VLA的深度融合,态势鲜明,推动自动驾驶商业化进程提速。
主要风险提示 [page::1][page::13][page::14]
- 具身智能技术突破或算力、数据不足导致应用进展不及预期。
- 智能汽车新技术落地缓慢,可能影响汽车电子配置率和用户体验。
- AI产品商业化挑战,包括用户付费意愿不足与粘性不强风险。
深度阅读
中金研究报告详尽分析 — 《AI进化论(10):GTC2025,从Agentic AI到Robotic AI》
---
一、元数据与报告概览
- 报告标题:《AI进化论(10):GTC2025,从Agentic AI到Robotic AI》
- 作者:张怡康、李诗雯等
- 发布机构:中金公司
- 日期:2025年3月26日
- 主题:报告聚焦于人工智能(AI)技术新阶段的演进,尤其围绕英伟达2025年GTC大会发布的相关技术,从Agentic AI到Robotic AI的发展进展,深入探讨了人形机器人和自动驾驶领域的技术创新、应用实践及产业链机会。
- 核心信息与观点:
- AI经历了判别式AI、生成式AI到Agentic AI三代范式进化,产业形态随之升级。
- GTC 2025大会上重点呈现了Robotic AI的崛起,尤其是VLA(Vision-Language-Action)模型对人形机器人和自动驾驶的推动。
- 人形机器人受益于大模型的多模态能力提升,泛化和交互体验明显优化,产业协同推动落地应用进入加速期。
- 自动驾驶技术演进从传统端到端系统向结合视觉语言模型的VLA迈进,预计2025年将迎来VLA技术的量产上车和高阶智能驾驶商业化的加速。
- 建议关注人形机器人、自动驾驶等高阶AI应用相关产业链标的。[page::0]
---
二、逐节深度解读
2.1 引言与技术演进概述
- 报告回顾了AI三代技术范式的跃进:
- 判别式AI(传统图像识别、语音识别等)
- 生成式AI(内容创作、营销辅助)
- Agentic AI(具备自主推理、规划、决策执行能力的智能体)[page::1]
- 英伟达于GTC 2025正式宣布Agentic AI时代开启,推出基于Llama-3.1的多版本AI模型(Nano、Super、Ultra),专注于提升推理速度和决策准确率,提高了模型效率和能力表现。
- 硬件方面,以Blackwell Ultra GPU为代表,支持复杂推理任务的低延迟响应(最快10秒),优化为Agentic AI应用场景量身打造。
- 生态合作案例:英伟达联合Oracle提供超过160个AI工具与100多个微服务,赋能企业Agent自动化落地。
2.2 Agentic AI对产业边界的影响
- C端应用趋势:
- 用户流量有望从多个APP集合至单一AI Agent,颠覆传统APP分散模式,形成内容分发的新入口与新格局。
- 手机厂商和互联网巨头均积极布局AI Agent,以争夺未来用户流量和内容分发渠道主导权。[page::2]
- B端应用潜力:
- AI Agent具备跨场景任务执行和流程整合能力,可深度渗透企业工作流,提升工作效率和生产力。
- 通过模型训练与微调,Agent强化自反馈飞轮效应,逐步嵌入企业客户深层业务逻辑和协同,驱动B端价值链重构,助力降本增效。
- 图表说明:B端AI Agent最终价值体现在流程、交互、内容三个层面:
- 工作流程和范式革新带来流程价值显著提升。
- 人机交互效率大幅改善,沟通成本下降。
- 生产成本降低,生成效果提升。
(见图表3)[page::3]
2.3 端到端VLA大模型对人形机器人的推动
- Isaac GR00T N1 平台:
- NVIDIA发布Isaac GR00T N1,代表人形机器人领域的基础模型,突破了对海量训练数据和泛化能力的技术瓶颈。
- 采用快慢思维(双系统)架构:
- 慢思维基于Vision-Language Model(VLM),使用搭载SmolLM-1.7B模型的NVIDIA-Eagle处理视觉与语言信息,实现环境感知和决策规划。
- 快思维系统利用Diffusion Transformer生成连续动作,实现具体执行。
- 训练数据分层呈金字塔结构,从大规模网络视频数据,到合成数据,再到真实机器人远程操作数据,提升了训练效率和模型泛化能力。[page::4]
- 性能对比:
- 在多个基准模拟环境(如RoboCasa、DexMG、GR-1)和实景任务中,Isaac GR00T N1表现优异,显著超越传统BC Transformer与Diffusion Policy。
- 以Full Data训练时,Isaac GR00T N1平均成功率达45%-76.8%之间,远高于对照模型,多任务泛化能力强,尤其在抓取精准度和语言指令执行上表现突出。(见图表5和图表6)[page::5]
2.4 银河通用的合成大数据与VLA模型NaVid创新
- 挑战:传统人形机器人VLA大模型数据主要靠远程人工操作采集,耗时且成本高。
- 解决方案:银河通用提出使用合成大数据方法,大规模生成多样化、高质量的训练数据,显著降低成本并提升数据量级。
- 具体数据资产包括:
- GAPartNet(物体资产库)
- DexGraspNet(百万级灵巧手抓取合成数据集)
- 深度传感器仿真技术,实现视觉、动作数据模拟。
- NaVid机器人导航系统基于70亿参数模型,通过视频与自然语言指令端到端完成导航任务,已具备跨场景泛化能力,无需额外调优,可应用于零售、医疗、工业等多个实体场景。[page::6][page::7]
2.5 群核科技SpatialVerse与深圳市人工智能与机器人研究院AIRSPEED平台
- SpatialVerse:
- 基于酷家乐3.6亿3D模型素材及8600万月活用户数据,构建的高质量物理真实视觉数据平台。
- 通过自动标注、物理属性定义和场景多样化生成,实现数字孪生的高逼真数据模拟和资产可交互性。
- 支持IsaacSim、Unreal等多仿真引擎,为扫地机器人、厨房机器人、人形机器人等提供训练数据支持。[page::8][page::9]
- AIRSPEED数据生产平台:
- 定位于具身智能生态中游,作为连接数据采集设备、机器人本体厂商与应用开发商的数据中台,解决“数据孤岛”问题。
- 具备“万物皆可达”和“万物皆可生”创新理念,实现任意机器人形态、任何操作的软硬件适配和合成轨迹生成。
- 通过自动化数据集构建和性能评估机制,实现真实世界数据集构建加速36倍、仿真环境数据3.5倍以及数据飞轮6倍加速,显著推动模型迭代效率提升。(见图表12)[page::10]
2.6 英伟达自动驾驶软硬件平台与VLA驱动智能驾驶落地
- 英伟达通过Drive AGX Thor系列芯片、Omniverse数字孪生仿真平台和Cosmos合成数据生成引擎,构建了自动驾驶的闭环开发体系,全面覆盖硬件算力、软件栈及数据引擎支撑。
- Thor GPU基于Blackwell架构,具备1000 FP8万亿次计算能力,优化了自动驾驶端到端推理算法,支持L2+到L4全场景自动驾驶。(见图表13)[page::11]
- Omniverse+Cosmos可生成极端天气、复杂交通流等多样场景的大规模合成数据,结合模型蒸馏和闭环训练,提升自动驾驶模型训练效率和泛化能力。(见图表14)[page::12]
- 英伟达推出全栈式安全系统Halos,覆盖芯片、软件和服务层面,强化从云端到车端的安全保障,确保自动驾驶环境的多层次安全可靠。
- 理想汽车MindVLA模型:
- 深度融合端到端与VLM,具备视觉-语言-行为一体化解决方案。
- 技术亮点包括3D空间智能、MoE混合专家架构支持稀疏化推理、快慢思考机制、扩散模型生成驾驶轨迹以及结合人类反馈强化学习,提升长尾场景表现及安全底线。
- 实现“听得懂、看得见、找得到”的智能交互能力,使汽车具备司机般理解用户需求的能力,预计2025年7月与理想i8首发搭载。(见图表15)[page::13]
- 小米、商汤、元戎启行等厂商也在积极研发与量产端到端与VLA技术,产业共识显示端到端方式成为趋势,2025年将是VLA量产和落地的大年。
2.7 风险因素提示
- 具身智能技术突破不足,包括感知、算法、算力与数据规模要求不达预期,将限制机器人智能进阶。
- 智能汽车新技术落地缓慢,若新技术不能快速转化为市场产品,可能导致汽车电子配置率下降,影响整车竞争力。
- AI商业化风险,用户付费意愿和使用习惯存在不确定性,缺乏持久动力或导致AI产品难以成为生活必需品,影响商业模式的健康发展。[page::1,13,14]
---
三、图表深度解读
图表1(页1):生成式AI向智能体AI演进
- 描述了AI技术从感知(Perception AI)向生成(Generative AI),再迈向“智能体AI(Agentic AI)”的技术演进曲线。
- 显示Agentic AI能够实现自主推理、规划及执行能力,对应应用如代码助手、客服、医疗陪护等。
- 图表支持英伟达AI范式转型叙述,突现Agentic AI阶段的产业潜力。[page::1]
图表3(页3):B端AI Agent价值分析
- 展示AI Agent对企业的价值链影响,分成流程、交互和内容三个层级。
- 重点强调AI带来的生产力提升和生产关系变革,彰显B端AI产品投资回报和ROI考量。
- 对企业客户而言,核心目标是效率提升和成本降低,体验优化是辅助价值。
- 图表体现了AI Agent在B端布局的商业逻辑与战略意图。[page::3]
图表4(页4):Isaac GR00T N1工作原理
- 形象呈现机器人感知、语言输入如何经两步系统(Vision-Language Model和Diffusion Transformer)迭代转化为动作执行。
- 说明了N1双系统架构典型方案,结合视觉、语言指令完成智能决策及精准动作生成。
- 与文本描述相辅相成,深入剖析了人形机器人的神经网络层级控制流程。[page::4]
图表5和图表6(页5):Isaac GR00T N1模型性能对比
- 多环境模拟指标和实际场景表现均显示,Isaac GR00T N1以显著优势超越对比模型。
- 尤其在数据有限的10%样本训练时,N1模型仍表现较高成功率,体现了其高效的泛化与学习能力。
- 这些数据支持报告关于N1模型适用于工业、物料搬运等复杂任务的判断。[page::5]
图表7(页6):VLA技术应用于自动驾驶与通用机器人
- 分类展示了基础大模型向非具身与具身大模型发展路径,包括GPT-4、GPT-4O视频生成、Tesla自动驾驶、谷歌通用机器人等应用。
- 显示VLA模型正是具身智能体(机器人、自主车辆)的关键技术支撑。[page::6]
图表8(页7):合成大数据替代传统采集
- 重点介绍了各种资产、动作数据和传感器仿真如何形成庞大合成数据集,解决真实训练数据匮乏与高成本问题。
- 支撑银河通用提出的“合成大数据”方案,提供大规模数据可扩展能力。[page::7]
图表10(页8):SpatialVerse体系结构
- 展示了从文字指令、视觉输入解析到语言模型处理的整体结构流程。
- 结合历史视频序列和当前视频帧,利用多模态交叉注意力机制实现复杂指令执行。
- 演示群核科技如何实现高效具身智能仿真与数据生成,支撑机器人训练的生态链。[page::8]
图表11(页9):AIRSPEED平台生态位体系
- 描绘上游制造商、AIRSPEED平台与下游用户之间的数据流和服务链条。
- 明确AIRSPEED作为连接软硬件、仿真与模型开发的核心数据生态位,解决“数据孤岛”问题。[page::9]
图表12(页10):AIRSPEED数据飞轮及对数据瓶颈解决方案
- 数据飞轮显著提升真实世界和仿真数据构建速度,最大化模型迭代效率提升6倍。
- 针对具身智能数据成本、数据丰富度、评估难题均提出相应的软硬件解耦、兼容技术及自动化方法解决方案。
- 数据集结构设计通过数学模型表达,表明数据维度定义与生成分层严谨。[page::10]
图表13(页11):Thor GPU Blackwell架构
- 介绍Thor GPU的高算力(1000 TOPS FP8)和第五代张量核心,及其对LLM/VLM优化的特性。
- 含有高效的调度器设计支持多任务调度。
- 支撑自动驾驶高负载推理的硬件基础。[page::11]
图表14(页12):Omniverse与Cosmos支持的自动驾驶模型闭环训练
- 图示数字孪生环境下的合成数据流闭环,模型在仿真场景训练并输出动作预测,循环优化。
- 支持自动驾驶模型的深度训练和泛化,降低了对真实数据的依赖,提升开发效率与安全性保障。[page::12]
图表15(页13):MindVLA架构演进
- 表现从传统端到端+视觉语言模型到视觉-语言-行为(VLA)大模型的重要演进。
- 结合3D空间智能、语言智能与行为智能实现协同,体现复杂智能体的多维认知与决策能力。
- 这是自动驾驶智能化升级的关键技术标志 。[page::13]
---
四、估值与商业化分析
- 报告侧重技术趋势与应用场景描述,未提供具体估值模型与目标价数据。
- 但商业化逻辑体现在B端产品ROI分析及C端流量入口竞争视角,暗示AI Agent商业模式潜力巨大。
- 智能驾驶量产车型将助推技术落地的产业化进程,为相关芯片、软件及数据服务厂商带来显著成长机会。
- 报告建议关注消费电子终端厂商、自动驾驶与机器人产业链相关标的。
---
五、风险因素详细评估
- 技术突破风险:Agentic AI和Robotic AI涉及前沿算法、高算力需求及高质量多模态数据支撑,技术发展不及预期将延缓行业步伐。[page::1,13]
- 新技术商业落地风险:智能汽车新技术配置若未达市场预期,可能导致产品竞争力受损,影响下游整个产业链发展。[page::13]
- AI商业化风险:消费者及企业端的付费及使用意愿波动,存在AI产品难以成为生活必需品的潜在风险,影响商业收入实现。[page::14]
---
六、批判性视角与细微差别
- 报告整体呈现较为积极的技术进展视角,强调英伟达及合作企业的领先布局与成果,存在对核心厂商技术创新和产业整合能力的较高信心,潜在的偏重于头部企业视角,较少覆盖较弱竞争者或替代技术路径。
- 报告对于机器人与自动驾驶的技术复杂性和现实环境挑战略显乐观,例如,实时响应和真实世界数据差异问题在VLA模型上的具体解决方案仍处于早期阶段,未来实际落地存不确定性。
- 对数据合成等解决方案的依赖虽解决了成本和规模问题,但合成与现实世界的差距以及评估指标体系的完善仍需时间验证。
- 估值及商业化路径相对泛泛,尚缺乏详细财务预测和市场竞争格局分析。
---
七、结论性综合
本报告系统评析了英伟达2025年GTC大会的核心技术成果及其在Agentic AI与Robotic AI领域的应用突破,重点解读了人形机器人平台Isaac GR00T N1、大规模合成数据驱动的银河通用NaVid模型、群核科技SpatialVerse与深圳人工智能与机器人研究院AIRSPEED数据平台三大创新数据生态建设,显著推动机器人训练的效率和泛化能力优化。
在自动驾驶领域,英伟达凭借Drive AGX Thor强大硬件算力及Omniverse和Cosmos仿真与数据平台,构建了自动驾驶软硬件闭环开发体系。结合理想汽车MindVLA等前沿实践,VLA模型正在成为推动高阶智能驾驶商业化的关键技术,预计2025年将迎来量产上车及加速落地。
从产业视角看,Agentic AI将改变内容分发渠道与用户流量格局,C端应用场景趋聚与B端生产力升级并行发展。产业协同和数据创新相互促进,将推动具身智能和自动驾驶迈向更广阔的商业应用与市场空间。
风险方面,技术突破、智能汽车新技术落地及AI商业化意愿的不确定性仍需关注,但总体来看,行业正处于从基础技术积累向实际商业运营转变的关键时间节点。
最后,报告通过详实的技术描述与丰富的图表数据,全面揭示了AI技术和应用的最新演进趋势,具备较高参考价值,值得产业链上下游重点关注与深入研究。[page::0-14]
---
附:部分关键图表示意
—— 从判别式AI到Agentic AI的技术演进
-

—— Isaac GR00T N1工作原理示意
-

(报告中图表详见对应页码索引)
---
综上,本报告以详实的数据和案例展示了未来AI智能体尤其是机器人与自动驾驶的技术演进脉络,及产业链发展机遇,具备重要战略指导价值,适合相关行业投资者和研究机构重点研读使用。