中金 | AI进化论(8):AI Agent:AI的L3时刻?
创建于 更新于
摘要
本报告聚焦AI Agent作为AI发展的L3阶段产品,其核心区别在于工具使用和决策执行能力,海外厂商密集推出相关产品以推进规模化落地。重点分析了Monica推出的通用型AI Agent Manus,其通过多代理模式实现了更通用的跨任务执行,并通过展示处理流程提升用户信任感。报告还探讨了AI Agent对人机交互形态和互联网生态的深远影响,预测AI Agent或成为手机及互联网生态的新入口,重塑内容分发和流量格局[page::0][page::8][page::12][page::13].
速读内容
AI Agent的L3阶段定义及进展 [page::1]
- AI发展划分为聊天机器人(L1)、推理者(L2)、智能体(L3)等五个阶段,L3的本质是能使用工具和执行决策。
- 近半年海外厂商如OpenAI、Anthropic等加速AI Agent相关执行能力研究,推动规模化应用。
- ChatGPT和DeepSeek代表L1、L2阶段的典型突破,AI Agent相关产品注重解决界面交互痛点及简化构建流程。
AI Agent代理计算机能力及产品工具 [page::3][page::5][page::6][page::7]
| 产品/工具名称 | 开发者 | 发布时间 | 功能简介 |
|----------------|---------|---------|----------------------------------------------|
| Computer Use | Anthropic | 2024年10月 | 通过观看屏幕截图移动光标等,实现类似人类的电脑操作 |
| Operator | OpenAI | 2025年1月 | 聚焦网页浏览操作,结合GPT-4视觉和强化学习 |
| OmniParser | Microsoft | 2024年10月 | 解析界面截图为结构化元素,辅助智能体交互 |
| Responses API | OpenAI | 2025年3月 | 提供构建模块,支持调用搜索、文件等工具构建定制AI Agent |
| Copilot Studio | Microsoft| 2024年11月| 低代码平台,允许自然语言快速创建定制智能体 |
| MCP标准 | Anthropic | 2024年11月| 统一模型与工具接口标准,简化AI Agent与外部数据源的连接 |
- OSWorld基准测试显示,当前AI Agent代理电脑的任务完成度最高为OpenAI Operator的38.1%,显著领先早期产品但仍低于人类72.36%完成度。
- 海外厂商通过构建生态平台和统一协议推动AI Agent更易开发和部署,[图片展示了Responses API和Copilot Studio界面]。


Manus:多代理模式引领AI Agent模式创新 [page::8][page::9][page::10]
- Monica推出的Manus在GAIA基准测试中排名第一,展现了跨场景处理多样任务能力,包括简历筛选、股票分析、旅游攻略等。
- Manus采用多代理套壳模式,母Agent拆分任务调度多个子Agent,有效覆盖通用场景。
- Manus创新在于将任务处理流程实时在屏幕侧边以“虚拟机”形式展示,增强用户信任度和交互透明度。
- 多代理模式被视为推动智能体落地及用户接受的关键路径。



用户对AI Agent可靠性的关注及控制措施 [page::11][page::12]
- 长耗时复杂任务中,用户对AI Agent的执行准确性和可靠性表达担忧。
- 超过半数企业用户通过跟踪/观察方式控制Agent,防止不准确或不可预期的结果。
- Manus的流程展示设计为解决信任门槛问题,预计将推动ToC端的应用落地。


AI Agent对人机交互及互联网生态的深远影响 [page::12][page::13][page::14][page::15]
- 智能手机交互正从图形GUI、语音VUI向无APP代理Agent UI演进,未来AI Agent可能成为终端主要交互入口。
- 用户流量将从碎片化的多个APP集中至单一Agent入口,改变内容分发权力,传导至互联网及手机厂商的商业模式变革。
- 2024年Q4,各头部APP MAU数据体现当前流量格局。
- 企业端广告收入和手机厂商互联网业务收入表明互联网厂商与手机厂商均深度布局AI Agent。



手机厂商及互联网厂商的AI Agent部署现状和合作 [page::15][page::16][page::17]
| 型号 | 发布厂商 | 发布时间 | 操作系统 | AI Agent功能简介 | 智能体/助手 |
|------------|--------|---------|------------|----------------------------------------------------------------|------------------|
| Pura 70 | 华为 | 2024年4月 | HarmonyOS 4.2 | 智慧视觉、识屏说服务、方言识别、扫码支付等 | 小艺智能体 |
| iPhone16系列 | 苹果 | 2024年9月 | iOS 18 | 视觉识别、文字编辑、Genmoji、集成ChatGPT提升Siri能力 | Siri |
| Xiaomi15系列 | 小米 | 2024年10月 | 澎湃OS 2 | AI写作、壁纸生成、实时语音翻译、多模态交互等 | 超级小爱 |
| Magic 7 | 荣耀 | 2024年10月 | MagicOS 9 | 语音一键下单、价格比价、导航寻址、权限管理、视频翻译等 | YOYO智能体 |
- 互联网厂商如智谱推出AutoGLM,支持手机端多应用自动化任务执行,且与手机厂商合作布局形成合力。
- 阿里与苹果合作聚焦中国市场C端AI功能,进一步推动AI Agent生态建设。


深度阅读
中金 | AI进化论(8):AI Agent:AI的L3时刻?——详尽分析报告
---
一、元数据与概览
- 报告标题:AI进化论(8):AI Agent:AI的L3时刻?
- 作者:温晗静、何欣怡等,中金点睛团队
- 发布机构:中金公司研究部
- 发布日期:2025年3月25日
- 主题:人工智能产业,侧重AI Agent产品的发展阶段、技术路径以及商业应用前景
核心论点:
- AI Agent代表人工智能第三阶段(L3)——智能体(Agents),区别于前两阶段聊天机器人(L1)和推理者(L2),主要在于其是否能使用工具并执行决策。
2. 最近6个月海内外厂商在Agent执行能力和用户落地方面均取得显著进展,证明智能体规模化落地已加速到来。
- Monica推出的Manus作为通用AI Agent的代表,体现了多代理模式和交互过程的展示创新,具备极强商业化及C端应用潜力。
4. AI Agent不仅是技术演进,更深远地将改变人机交互接口,重塑内容分发与终端生态,手机厂商和互联网公司均在积极布局,以期占据未来入口地位。
报告总体展现乐观态度,认为智能体(L3 AI Agent)正进入加速发展期,技术创新及落地能力齐头并进,推动AI商业生态发生根本性变革。
---
二、逐节深度解读
2.1 AI Agent的AI演进阶段划分
- 报告用OpenAI的AI阶段框架,将发展划分为5级:聊天机器人(L1)、推理者(L2)、智能体(L3)、创新者(L4)、完整组织(L5)。
- L1重在语言理解,L2具备人类水准的逻辑推理,L3则在于执行动作和工具使用,是智能体时代的开启,能完成现实世界任务。
- 智谱定义与OpenAI大致一致,强调工具使用能力是衡量L3的重要指标。
- 最新数据显示L1语言理解能力已达80-90%,推理能力和工具执行能力正在快速提高,L3时代正缓慢展开。[page::0, page::1]
2.2 AI Agent关键技术进展与厂商动态
- 图表呈现了AGI各项能力进度(逻辑推理30%、工具能力30%、语言理解90%等),表明虽语言水平高,工具利用能力依然是瓶颈。
- ChatGPT和DeepSeek分别代表L1和L2的突破,DeepSeek只用7天新增1亿用户使用时间,远超ChatGPT的2个月,显示推理者及其后续智能体的用户增长潜力巨大。
- 海外主要厂商(OpenAI、微软、Anthropic等)近半年密集发布AI Agent及辅助工具:
- 目标一:增强Agent对图形用户界面(GUI)的理解与操作能力,强化设备接管。
- 目标二:构建统一API和部署平台,简化开发流程,促进个性化Agent推广。
- 产品范例包括微软的OmniParser(界面识别)、OpenAI的Operator(浏览器操作)、Anthropic的Computer Use(模拟人类操作电脑)等。
- 这些技术突破使AI Agent不仅能“思考”,还可以“行动”,实现多样化的软件交互和任务完成。[page::2, page::3]
2.3 AI Agent对GUI解析技术与执行效果评估
- 解析步骤包括将屏幕截图转为结构化数据(文本框、图标)、识别交互元素,模拟点击和文本输入完成任务。
- 实际能力与人类差距明显,OSWorld测试中,人类完成度72.36%,最高AI Agent完成度仅12.24%。
- 但近期Agent表现快速提升,从Anthropic Computer Use的14.9%提升到OpenAI Operator的38.1%。
- 任务完成度提升证明Agent对设备接管能力持续增强,未来落地应用基础稳固。
- 研究也采用任务步数等参数(例如OpenAI CUA模型200步,Simular Agent 50步等)衡量执行效率和精度。
- 同时,Agent部署能力获得极大进步,借助OpenAI的Response API和微软的Copilot Studio,开发者能够快速借助组件构建自定义Agent,降低技术门槛。
- Anthropic提出的MCP协议则统一了Agent与外接工具和数据库的通信接口,显著提升开发效率和生态可扩展性。[page::5, page::6, page::7]
2.4 聚焦Manus:通用型AI Agent的创新落地
- Monica于2025年3月发布Manus,被评价为GAIA基准测试中在三档任务难度上的最高得分,领先OpenAI Deep Research。
- Manus通过多代理模式设计,主Agent能将复杂需求拆解成多个子任务,再分别调用工具和子Agent完成,提高覆盖场景的丰富性和深度。
- 增强用户信任度的关键是通过虚拟机右侧“过程展示”,呈现任务拆解、代码编写、网页操作等全流程,普通用户能理解且实时监督执行。
- Manus不仅输出文本,也支持多模态形式(文档、图像、音频、仪表盘、APP等),极大拓宽应用边界(示例包括旅游攻略、股票分析、招聘筛选等)。
- 报告认为Manus代表的“多代理+过程展示”模式,是推动AI Agent落地的关键突破之一,解决了用户对执行可靠性的疑虑。
- GAIA成绩进一步验证了其解决实际问题的能力,增强了商业变现潜力。[page::8, page::9, page::10, page::11]
2.5 AI Agent对人机交互的变革与生态影响
- 人机交互正经历由图形用户界面(GUI)向语音用户界面(VUI)再到Agent(APP-less)界面的演进。
- 未来AI Agent将取代传统APP成为用户与数字生态的主要接口,形成通用Agent入口,能跨各种场景整合多种服务。
- 如用户只需给出语义化需求,Agent自动从微信、淘宝、地图、内容平台等多个APP调用功能和数据,完成综合服务。
- 这将导致用户流量从多APP向单一Agent入口高度聚合,改变当下互联网的分散式流量分发结构。
- 内容分发权力亦将从传统APP转移至Agent,代理对各类内容进行筛选和排序,影响广告和电商生态的盈利模式。
- 手机厂商拥有底层硬件及系统权限,互联网厂商掌握软件和数据,双方均在积极布局AI Agent,呈现竞合格局。
- 当前各类手机厂商(华为、苹果、小米、荣耀)已先后推出系统级AI Agent,实现诸如智能识屏、语音助手升级、界面识别、自动任务执行等功能。
- 同时互联网公司(智谱、阿里、苹果)合作开发AI Agent,结合终端体验和平台优势,形成全面战略布局。[page::12, page::13, page::14, page::15, page::16, page::17]
2.6 风险提示
- 宏观经济波动可能抑制消费者对新技术产品需求。
- 技术升级若遇瓶颈,AI Agent性能提升和端侧适配将受阻。
- 商业化推广难度大,用户付费意愿和持续使用习惯尚不明朗。
- 推理算力资源紧缺,地缘政治风险或影响供应链稳定。
- 数据安全及隐私监管趋严,将限制数据处理和AI模型训练的灵活性。
- 报告提醒投资者应关注上述风险,不应盲目乐观。[page::1, page::18]
---
三、图表深度解读
3.1 AI发展阶段划分与能力评估(页1、2)
- 表格详细对比OpenAI与智谱的AI能力定义,清楚划分L1至L5阶段。
- 头脑图标示AGI当前平均进度约42%,其中语言理解最强,创新能力最弱,工具使用提升空间大。
- 成长曲线图表明DeepSeek在推理者阶段吸引用户远超ChatGPT在聊天机器人阶段,显示技术进步带来的用户黏性和渗透率跃升。
3.2 海外厂商AI Agent产品及工具清单(页3)
- 表格列举十余种重要产品,从代码编辑辅助到网页自动化浏览,涵盖Agent生成平台(Copilot Studio)、接口标准(MCP)等。
- 体现多样化应用场景及技术路径,显示AI Agent正在成为各类软件操作层的“超级助手”。
3.3 设备接管技术示例图(页4、5)
- Operator通过截图观察并自动填写谷歌表格、网页数据,演示了图形界面从无结构到结构化并执行动作的过程。
- OmniParser支持将网页画面中的按钮、文本框识别为可交互元素,大大增强Agent解析GUI的准确性和稳定性。
- 微软公开的屏幕解析数据示意图,展示多文本框、多图标的识别标签及功能说明,突出该工具的结构化能力。
- OSWorld完成度评分表显示OpenAI CUA高达38.1%的任务完成度领先,同类Agent普遍达到20%以上,体现Agent能力大幅进步。
3.4 Agent构建工具及协议示例(页6、7)
- Response API和Copilot Studio展示了用少量代码或自然语言即可快速定制Agent的界面,降低开发成门槛。
- MCP架构图将Agent与外部工具比拟成通过统一“接口拓展坞”连接多种服务,便于生态构建和跨系统兼容。
3.5 Manus功能展示图(页8、9、10)
- Manus网页显示任务分解To-Do列表,并同步通过浏览网页、编写代码执行具体任务,交互过程透明且多样。
- 多模态输出示例(如股票分析仪表盘)阐释其性能多面性及实际应用价值。
- GAIA基准图表突显Manus在三个难度等级中的领先地位,验证其综合问题解决能力。
3.6 用户信任与使用调研(页11、12)
- 调查条形图显示大多数企业用户依靠跟踪观察(55.4%)、防护手段(44.3%)及离线评估(39.8%)控制Agent使用,透露出对可靠性的高度关注。
- 性能质量、成本、安全担忧和延迟成为限制更广泛使用的主要因素,反映商业化面临客观挑战。
3.7 交互演进与流量变迁(页13、14、15)
- 交互演进示意图清晰归纳了从非生成AI应用到基于系统集成的Agent UI的跨越过程。
- 移动端头部APP的MAU分布展现当前流量高度分散局面,APP间流量庞大但存在入口分裂风险。
- AI Agent内容分发权限取代传统APP推送权限后,可能重塑内容经济,手机和内容厂商利润格局或面临极大调整。
- 对比苹果、阿里、腾讯等互联网巨头和华为、小米、荣耀等手机厂商的广告及互联网业务收入规模,体现各方发力AI Agent的商业动机。
3.8 手机厂商系统级Agent实践(页15、16)
- 表格列出不同手机厂商代表型号,描述了其AI Agent及智能体功能,如华为小艺智能体、苹果Siri集成ChatGPT、小米超级小爱、荣耀YOYO智能体等。
- 反映硬件厂商基于自家操作系统构建AI Agent服务生态的趋势及步伐。
3.9 互联网厂商接管设备案例(页16、17)
- 智谱的AutoGLM在微信、淘宝、大众点评等主流应用场景下已实现较高任务成功率。
- 显示互联网厂商通过技术和数据优势,结合安卓手机及与硬件厂商合作的路径,力争AI Agent落地先机。
---
四、估值分析
报告未涉及具体财务估值模型、目标价格或盈利预测,主要聚焦于技术趋势与产业发展,故无DCF、P/E等估值分析内容。
---
五、风险因素评估
- 宏观因素风险:经济环境、通胀及原材料价格波动可能削弱用户对可选AI产品消费。
- 技术风险:技术迭代可能放缓,端侧设备适配难题或制约Agent普及。
- 商业化风险:用户付费及持续使用的动力不足或导致AI Agent产品难以形成刚需。
- 算力风险:推理计算资源紧缺且供应链易受地缘政治影响,制约规模化部署。
- 监管风险:数据安全与隐私保护法规趋严,影响数据获取和模型训练。
- 报告强调风险多样且复杂,倡导投资者理性研判与动态监测。[page::1, page::18]
---
六、批判性视角与细微差别
- 报告较为积极评估AI Agent发展势头,但未深入探讨跨国法规差异和隐私安全问题可能产生的深远影响。
- 技术评估侧重于短期进展,长期AI Agent的伦理风险、误操作后果等安全隐患略显不足。
- 在市场竞争格局预测中,虽然提到百花齐放与多方布局,实际落地成功的技术成熟度和用户接受度仍受诸多不确定因素影响。
- 报告对Manus亮点给予高度肯定,但其在行业内的广泛适应性和商业模式可持续性尚需时间检验。
- 数据引用多为厂商和研究机构自评及初步测试,客观性依赖第三方独立验证,存在一定信息偏倚风险。
---
七、结论性综合
本报告以详尽逻辑梳理了AI Agent从技术层面到产业布局的全景图,明确提出AI Agent是AI发展的第三阶段(L3智能体),区别于以往的聊天机器人和推理者,AI Agent具备工具使用和决策执行能力,是实现智能自动化的重要里程碑。
报告重点强调了过去6个月以来海外及国内多家领先公司在:
- AI Agent对图形用户界面理解与操控能力的巨大提升(如OpenAI Operator、Anthropic Computer Use),以及完成度从不足10%提高至38%以上;
- Agent开发平台化、模块化趋势,通过统一API和授权协议使得Agent易于定制和部署,大大降低技术门槛;
- 以Monica的Manus为代表的多代理模式和任务全流程展现创新,有效提升用户信任度及实用性,促进C端大规模应用;
- 手机厂商和互联网公司围绕系统级智能体展开的竞赛,构建AI Agent为新一代用户入口,预示未来终端与互联网生态的深度变革;
- AI Agent未来有望通过“无App”接口重新整合流量,内容分发权力将向智能Agent集中,带动商业模式和产业链重构。
此外,报告较全面识别了外部宏观经济、技术、商业化、算力供应及数据安全监管方面的风险,并明确用户对AI Agent的质量和安全仍存较大疑虑,未来可靠性和透明度将是关键命题。
综上所述,AI Agent作为下一代智能交互形态及操作系统接口,正处于快速集聚创新和商业化爆发的临界点,吸引众多国内外巨头和初创企业投入资源布局。报告为业界提供了清晰路径和洞察:
- 技术突破层面,重点在于提升Agent对复杂GUI的理解执行能力和构建高效生态系统;
- 用户层面,通用Agent需兼顾多场景落地及过程透明,增强用户信任和接受度;
- 产业层面,AI Agent将成为移动互联网甚至更广泛数字生态的核心入口,带来商业模式和竞争格局的深刻转变。
该报告信息详实,逻辑清晰,图表丰富,覆盖了AI Agent的技术进展、产品创新、产业生态及风险层面,具有高度的行业参考价值。投资者和行业参与者可据此把握AI Agent变革浪潮中的关键节点和机会。
---
附:重要图表示例(部分)
- AI发展阶段对照表及AGI能力发展(页1-2)
- 多家厂商AI Agent产品与工具列表(页3)
- Operator、OmniParser具体应用场景展示(页4-5)
- OSWorld任务完成度排名(页5-6)
- Agent模块化构建流程示例(Response API、Copilot Studio)(页6-7)
- MCP协议架构图(页7)
- Manus任务分解与过程展示(页8-10)
- GAIA基准测试成绩对比(页10)
- 企业用户对Agent控制措施及限制因素(页11-12)
- 智能手机交互演进路径图(页13)
- 主要移动APP市场份额分布(页14)
- AI Agent替代APP推送内容示例(页14)
- 手机厂商AI Agent产品对比(页15-16)
- 智谱AutoGLM在主流应用成功率(页17)
- 互联网与手机厂商协作示意(页17)
---
(报告正文所有论述见页码标注)
示例图片引用格式(markdown):
-

-

-

-

---
结语
本报告全面、系统地呈现了AI Agent领域的最新技术演进与商业生态发展动态,尤其在技术突破、用户体验创新及产业合作趋势的分析上,体现出深厚的研究功底与行业洞察。AI Agent作为AI的第三阶段形态,正成为AI应用的新引擎和产业未来的突破口。本报告对投资者、产业决策者及从业人员均具重要参考价值。
---
References: [page::0, page::1, page::2, page::3, page::4, page::5, page::6, page::7, page::8, page::9, page::10, page::11, page::12, page::13, page::14, page::15, page::16, page::17, page::18]