`

中金 | AI智道(9):多模态推理技术突破,向车端场景延伸

创建于 更新于

摘要

2025年多模态推理技术取得重要突破,Google和国内厂商陆续推出领先模型,推动多模态与推理架构统一发展。智能驾驶领域应用不断升级,蔚来、理想等实现多模态推理能力落地,提升交通标志识别和复杂环境泛化,表明该技术将在车端场景广泛延伸,具备显著应用价值和成长潜力[page::0][page::1][page::2]。

速读内容


多模态推理技术进展与主要成果 [page::0][page::1]




  • 2025年3月Google发布Gemini 2.5模型,支持文本、图像、音频、视频、代码的多模态融合推理。

- 国内厂商阶跃星辰、商汤、MiniMax推出多模态推理新模型,MiniMax的V-Triune框架实现视觉推理与感知任务统一到强化学习架构,提升性能约14.1%。
  • 推理模型结合动态IoU奖励、冻结ViT参数等工程优化,推动多模态推理能力持续提升。


智能驾驶车端多模态推理应用 [page::1][page::2]


  • 蔚来NVM模型具备全量理解、想象重构和推理能力,改善ETC通行和停车场自动寻路场景性能。

- 理想的VLA大模型具备多模态推理能力,模拟人类驾驶思维链,提高道路交通标志识别及复杂场景泛化能力。
  • 多模态推理为智能驾驶场景下提升算法演进的核心技术路径。


风险提示及免责声明 [page::2][page::3]

  • AI应用开发速度未达预期及行业竞争加剧风险。

- 资料中分析判断不构成具体投资建议,投资者需谨慎决策。

深度阅读

中金研究报告分析:《AI智道(9):多模态推理技术突破,向车端场景延伸》



---

一、元数据与报告概览


  • 标题:AI智道(9):多模态推理技术突破,向车端场景延伸

- 作者:于钟海、魏鹳霏、肖楷、赵丽萍
  • 发布机构:中金公司研究部

- 发布时间:2025年6月3日
  • 主题领域:人工智能多模态推理技术,及其在智能驾驶等车端场景中的应用


报告核心观点与目标



报告聚焦2025年多模态推理模型的技术迭代,强调谷歌Gemini 2.5的发布及国内多项技术成果的进展,揭示通过多模态思维链整合推理模型,实现架构统一并提升多模态理解能力。报告重点关注多模态推理技术在智能驾驶领域的应用,尤其是理想、蔚来等车企的技术落地,强调技术融合创新将推动应用场景延伸,建议高度关注多模态推理技术主线的发展趋势。

[page::0,1]

---

二、逐节深度解读



1. 技术进展综述


  • 关键论点

- 2025年3月,Google发布的Gemini 2.5成为多模态推理领域的重要标杆,支持文本、图像、音频、视频和代码等多种输入,实现跨模态融合推理。
- 继谷歌之后,国内厂商如阶跃星辰、商汤科技和MiniMax也发布了多模态推理技术成果,带动能力显著提升。
- MiniMax的V-Triune框架作为视觉推理与感知统一的强化学习框架,实现了多模态推理能力突破。
  • 作者推理依据

- 介绍Google Gemini 2.5的跨模态输入能力和应用场景实际落地性能,如建筑风格查询、设备故障排查。
- 国内模型技术关注点集中在长时视频理解、多模态强化学习、全局记忆机制,显著提升多模态推理表现。
- V-Triune框架采用层级化设计,结合复杂训练机制与动态IoU奖励机制提升性能,在MEGA-Bench Core基准测试中数据显示性能提升幅度达到14.1%。
  • 关键数据

- Gemini 2.5在LMArena排行榜上超越GPT-4.5、Claude 3.7,体现领先地位。
- Orsta系列32B模型基于V-Triune,在MEGA-Bench Core测试中实现最高14.1%的性能提升。

[page::0,1]

2. 多模态推理在智能驾驶应用的落地


  • 关键论点

- 多模态推理提升智能驾驶系统对复杂交通标志的理解和识别能力,提高模型泛化性。
- 蔚来世界模型NVM具备全面环境理解、动态推演和决策能力,如优化ETC通道选择和停车场导航。
- 理想自研VLA模型具备思维链推理,模拟人类驾驶员思维,促进车载智能的进步。
  • 作者推理依据

- 结合具体车型的实际应用案例,说明多模态推理从技术层面促进智能驾驶算法优化。
- 理想和蔚来所展示的系统集成了多模态实时数据融合和动态决策推理,是智能驾驶应用领先实践。
- 多模态能力使智能驾驶在复杂环境中获得更强适应性和安全性能。
  • 关键数据及案例

- 蔚来NVM的推理能力在实时环境内多模态信息理解和演绎上表现出显著提升(详见图表4)。
- 理想VLA模型展示思维链推理能力,契合人类驾驶思维模型。

[page::1,2]

3. 风险提示


  • 风险点

- AI应用落地不及预期,存在技术和商业转化风险。
- 行业竞争加剧,可能导致市场格局变化和利润压力。
  • 风险评估

- 报告对风险披露较为简略,没有提供具体缓解策略和概率评估。

[page::2,3]

---

三、图表深度解读



图表1:MiniMax多模态RL成果V-Triune模型三层架构


  • 描述

- 展示了V-Triune模型三层级组件架构:样本数据格式化层、奖励计算验证器、数据源级指标监控。
  • 解读

- 该架构通过异步客户端-服务器设计实现数据与训练解耦,提高稳定性和可追溯性。
- 多模态样本通过格式化后输入,验证器层计算基于检测和数学验证的奖励信号。
- 监控层对指标动态跟踪,确保训练过程质量控制。
  • 联系文本

- 此图支撑文本对于V-Triune可扩展性和泛化能力的描述,体现其工程和方法论创新。
  • 潜在限制

- 结构复杂性对训练资源和时间有较高要求,异步体系带来沟通延迟风险。



图表2:Orsta模型训练流程


  • 描述

- 展示了Orsta模型针对视觉推理和感知任务的数据筛选流程,包括基于规则和难度的过滤,最终形成高质量训练集。
  • 解读

- 多阶段过滤确保训练数据在内容正确性(多选、符号、答案可验证等)和难度平衡方面均达到标准。
- 数据整理为模型训练提供强监督信号,提升推理和感知能力。
  • 联系文本

- 此训练精细化过程解释了性能提升的基础,突显数据质量管理在多模态模型中的重要。
  • 局限性

- 过滤标准的设计可能引入偏差,对特定复杂场景的覆盖度可能有限。



图表3:MEGA-Bench Core基准测试成绩表


  • 描述

- 表格列举多个7B及32B规模多模态模型在知识、数学、感知、编码、规划等多个维度的表现分数,以及MEGA-Bench综合得分。
  • 解读

- Orsta 7B模型在所有维度均跑赢基线Qwen2.5-7B,平均增益3.2个百分点。
- Orsta 32B模型相较原模型提升幅度最高达14.1%,表明通过推理和感知训练,模型多方面能力获得实质性进步。
- 与其他高参数模型如Gemma3、InternVL相比,Orsta系列展现出强劲竞争力。
  • 联系文本

- 支撑文中“Orsta模型实现显著性能提升”论断,是评价多模态推理优化效果的重要量化依据。
  • 数据潜在限制

- 测试仅基于部分公开基准,实际应用场景复杂性和实时性能未完全覆盖。

(基于HTML表,详见文本内容)

图表4:蔚来NVM模型实时推理能力展示


  • 描述

- 实景演示蔚来NVM模型在停车场内多模态环境理解与路径规划的用户界面和车辆视角。
  • 解读

- 展示了模型对停车场标识牌信息动态识别及路径规划输出的能力。
- 体现多模态信息融合与实时推理算法有效结合,增强智能驾驶辅助功能。
  • 联系文本

- 直观印证文本对蔚来模型在实际应用场景下提升智能驾驶体验的描述。
  • 限制

- 单一场景示范,技术普适性及复杂环境表现未详述。



---

四、估值分析


  • 报告并未涉及具体的公司估值模型、目标价或投资评级,主要为技术评述及应用展望,因此没有传统金融报告中的DCF、市盈率等估值分析内容。


---

五、风险因素评估


  • 风险点明确

- AI技术应用可能不及预期,存在项目实施、技术落地难度或市场接受度的问题。
- 行业内竞争加剧,尤其在多模态推理领域,可能导致创新难度和资本投入压力增大。
  • 潜在影响

- 技术成果转化不力可能削弱企业市场竞争优势。
- 竞争环境恶化可能拉低利润空间和市场份额。
  • 风险缓解

- 报告未明示具体的风险缓解措施,读者需关注后续技术进展和企业战略布局。

[page::2,3]

---

六、批判性视角与细微差别


  • 报告对于多模态推理技术进步持积极评价,引用大量技术细节和模型测试数据,展示了进展的明确成效,但存在以下注意点:


- 技术领先性的偏向:报告强调谷歌及国内领先模型进步,未深入讨论技术局限性,如模型训练成本、推理延时、跨模态一致性难题。
- 商业转化不明朗:智能驾驶的应用场景虽有演示,缺少对实际商业模式、软硬件结合挑战及法规环境的深入分析。
- 风险披露简略:风险章节表述较为笼统,没有详细阐述风险发生概率、具体案例或缓解措施,存在内容深度不足。
- 测试基准依赖性:性能提升主要基于MEGA-Bench等公开数据集,现实世界的多样化应用表现及稳定性尚无充分论述。
  • 报告新颖扎实地展示了多模态推理技术及应用的阶段性成就,为产业观察者提供参考,但对后续挑战和行业生态的阐释略显不足。


---

七、结论性综合



本报告系统梳理了2025年全球及中国在多模态推理技术领域的显著突破,重点介绍了Google Gemini 2.5模型及国内多家企业如阶跃星辰、商汤、MiniMax的创新成果。MiniMax的V-Triune强化学习模型通过三层组件架构统一视觉推理和感知任务,结合动态IoU奖励机制有效提升推理性能,Orsta系列32B参数模型在MEGA-Bench Core测试中实现最高14.1%的性能提升,表明训练方法及数据筛选优化显著增强了模型多维度智能表现。

多模态推理技术对于智能驾驶尤其关键,报告指出理想和蔚来领先布局,蔚来NVM模型已实现对停车场环境的动态实时多模态理解与路径优化,展现了多模态推理技术在车端智能交互中的落地实效。这一技术趋势有助于提升自动驾驶系统的环境感知能力和复杂场景泛化能力,亟需业内持续关注和投入。

风险方面,报告提醒AI应用落地节奏可能滞后预期,行业竞争激烈,需警惕技术迭代与市场变局带来的挑战。尽管具体缓解策略未详述,但对潜在风险的提示值得企业和投资者关注。

整体来看,报告以详实的数据和案例详述多模态推理领域的技术进展及其智能驾驶场景应用,反映出产业发展的前沿动态和未来潜能,为产业技术观察和投资决策提供了重要参考依据。[page::0,1,2,3]

---

(全文完)

报告