【华鑫计算机|行业周报】 智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent
创建于 更新于
摘要
本周华鑫计算机行业周报聚焦智谱AI发布GLM-4.5V多模态视觉推理模型,刷新多项视觉基准测试纪录,技术创新涵盖三维空间感知和多模态长上下文处理,显著提升视觉推理与复杂文档解析能力。同时,昆仑万维发布业界首个多模态深度调研Agent,集成多模态检索理解与跨模态生成,实现多任务智能协同和高效信息转化。此外,报道了Cohere完成5亿美元D轮融资,企业级AI赛道持续拓展。机器人运动会数据及行业个股投资建议也同步发布,整体强调AI技术突破与行业应用落地趋势,提醒技术迭代、政策监管等风险 [page::0][page::1][page::2][page::3][page::4][page::5]
速读内容
1. 智谱AI发布GLM-4.5V多模态模型 [page::0][page::1][page::2]

- GLM-4.5V总参数规模达1060亿,激活参数120亿,刷新41项视觉多模态基准测试纪录。
- 模型基于GLM-4.5-Air文本基座,架构含视觉编码器、MLP适配器和语言解码器,创新引入3D旋转位置编码(3D-RoPE)显著增强三维空间感知。
- 支持64Ktokens多模态长上下文,采用三阶段训练策略:预训练、监督微调(引入思维链训练样本)、强化学习,提升STEM和多模态定位任务表现。
- 应用涵盖图像识别定位、视频分析、复杂文档解析、前端复刻及GUI智能交互,实现结构化前端代码生成和实时屏幕元素交互辅助。
- API低成本开放,支持商业应用和开发者体验,推动安全监测、遥感和智能开发等领域落地。
2. 昆仑万维发布业界首个多模态深度调研Agent [page::0][page::2][page::3][page::4]
- Skywork Deep Research Agent V2整合多模态检索理解与跨模态生成,通过MM-Crawler并行爬取视觉+文本数据,采用视觉噪声剪枝技术减少65%冗余图片。
- 多智能体架构实现异步并行任务执行及多轨流水整合,显著提升多模态检索和理解效率。
- 结果生成支持图片信息转写、插图、重绘,输出完整视觉友好深度报告。
- 浏览器智能体解决登录、验证、执行效率低、死循环等问题,实现内容筛选、情感分析及可视化报告生成,支持一键网站部署和智能管控。
- MCP管理Agent统一管理工具链,促进Agent协作和任务适应性,提升模型稳定性和泛化能力。
3. AI融资动向与行业动态 [page::0][page::4]
- Cohere完成5亿美元D轮融资,估值提升至68亿美元,专注企业级大语言模型,Command A性能媲美GPT-4,支持200页文档处理,本地部署保障数据安全。
- 预计2025年年化收入超2亿美元,持续推进智能体AI方案,强化产业生态与技术储备。
- 2025年世界人形机器人运动会揭示机器人技术在鲁棒性、执行稳定性及感知泛化的不足,赛事表现优秀选手包括宇树科技、北京人形机器人创新中心、星动纪元。
- 推荐关注临床AI落地及算力基础设施相关企业嘉和美康、亿道信息、迈信林、泓淋电力、唯科科技等。
4. 算力与指数行情回顾 [page::1][page::4]
- 本周算力租赁价格保持平稳,显卡配置租赁价详见报告。
- AI算力指数、AI应用指数涨跌幅度分布,英维克及寒武纪-U涨幅突出,传音控股及南兴股份表现不佳。
- 监测到AI相关网站访问量变化,QuillBot环比增长4.44%领先。
5. 投资风险提示与合规声明 [page::5][page::6]
- 技术迭代、政策及版权风险及推荐标的业绩不及预期是主要风险。
- 分析师遵循独立客观职业操守,报告不构成投资建议,版权归华鑫证券研究所所有。
深度阅读
【华鑫计算机|行业周报】智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent —详尽分析报告
---
一、元数据与报告概览
- 报告标题:《智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent—计算机行业周报》
- 作者:宝幼琛(华鑫证券研究所分析师,SAC编号:S1050521110002)
- 发布机构:华鑫证券
- 发布日期:2025年8月18日
- 研究领域:计算机、AI、互联网 — 聚焦智能算力、多模态AI模型及相关应用、行业动态和融资动向
- 核心主题:重点剖析智谱AI最新发布的GLM-4.5V多模态视觉推理模型,昆仑万维业界首个多模态深度调研Agent,以及企业级AI新兴融资动态。
- 报告核心论点:
- 智谱AI GLM-4.5V凭借技术突破引领多模态视觉推理领域,性能刷新多项权威基准测试记录,助推AI视觉理解和交互技术应用落地。
- 昆仑万维发布的多模态深度调研Agent显著提升了多模态信息的调研效率和准确性,其在多智能体协同及系统架构上的创新确保了强自主性和适应性。
- 企业级AI赛道涌现高质量融资案例,代表了资本市场对专业化、定制化AI解决方案商业潜力的高度认可。
- 投资建议:推荐关注AI算力、智能机器人及核心技术应用领域优质企业,特别是具备底层算法与硬件结合能力的相关龙头企业,警惕技术迭代和监管风险。
- 评级:行业中长期继续保持推荐态度,具体个股建议分层详述。[page::0][page::1][page::2][page::3][page::4][page::5]
---
二、逐节深度解读
2.1 算力动态
- 算力租赁价格稳定:
- 8月中旬市场上传统服务器显卡租赁价格稳中微调,典型价格区间:腾讯云A100-40G为5.73元/小时、阿里云同配置31.58元/小时、恒源云A100-80G约7元/小时、A800-80G版约6元/小时,显示出市场资源紧缺缓解,价格趋于平稳。
- 价格稳定性表明算力市场供需相对平衡,有利于企业长期算力规划和研发投入决策。
- 技术驱动力:算力价格波动小,但伴随新一代多模态AI模型对算力需求增大,算力资源的优化配置和应用效率提升成为关键。
- 关联分析:算力成本控制为AI模型持续训练与部署提供基础,直接支撑下游技术迭代和应用落地。[page::0][page::1]
2.2 智谱AI发布GLM-4.5V多模态视觉推理模型
- 模型介绍与技术突破:
- GLM-4.5V是基于GLM-4.5-Air文本基座模型,拥有1060亿总参数及120亿激活参数规模,是全球领先的开源视觉推理模型。
- 架构由视觉编码器、MLP适配器及语言解码器三部分组成,创新性引入三维旋转位置编码(3D-RoPE)技术,大幅提升空间关系感知能力。
- 支持最高64K tokens的长上下文多模态输入,结合三维卷积与双三次插值机制,增强视频和高分辨率图像处理效率及稳健性。
- 训练策略:采用预训练、监督微调及强化学习三阶段策略。其中,强化学习阶段融合可验证奖励机制和人类反馈强化学习,极大提升多模态理解深度及任务表现。
- 性能表现:
- 在41项公开视觉多模态基准测试中刷新性能纪录。
- 在"图寻游戏"中,16小时击败99%人类选手,7天内排名全球第66。
- 应用场景:模型在复杂文档解析、视觉定位、前端开发"复刻"(将截图或视频转化为结构化代码)及GUI智能交互等领域表现卓越。配合智谱开放平台提供低成本API服务,实用性强。
- 价值和战略意义:GLM-4.5V不仅技术领先,也因开源策略推动生态繁荣,对国内外多模态AI发展产生积极推动作用。
- 关键数据点:
- 参数规模:1060亿总参数,120亿激活参数
- 64K tokens长上下文处理
- API价格低至输入2元/M tokens、输出6元/M tokens
- 响应速度60-80 tokens/秒
- 免费资源包2000万tokens
- 综合点评:该模型技术层面高度精细且多维创新,结合实际应用场景需求,显示具备重要的商业化潜力和科研价值。[page::1][page::2]
2.3 昆仑万维发布多模态深度调研Agent
- 产品亮点:
- Skywork Deep Research Agent V2集成了多模态检索理解与跨模态生成技术,能自动识别并提取图片、图表内关键信息,自动生成图注及综合图表,提升研究报告质量与精度。
- 应用异步并行Multi-Agent架构,实现文本和图片任务智能调度与高效执行,系统稳定性和扩展性佳。
- 技术创新:
- MM-Crawler工具高效并行爬取多模态数据,搭配视觉噪声剪枝技术减少65%冗余流量。
- 结合“文字-图片-推理链”合成训练数据,实现长距离上下文和图片信息的复合理解。
- 多轨执行+流水线整合设计提升检索和理解效率。
- 结果生成采用“转写-插图-重绘”模式,实现信息完整且视觉友好的报告输出。
- 浏览器智能体模块:
- Skywork Browser Agent能够解决传统浏览器智能体存在的执行缓慢、任务中断、环境适应差等痛点。
- 自动分析社交媒体文本、图片、视频及评论情感,支持一键式网站部署和智能化接管,保证工作流高效稳定执行。
- 性能指标:
- BrowseComp平台权威搜索正确率27.8%,启用并行思考模式达38.7%,刷新行业SOTA纪录。
- 全球智能体基准测试GAIA中也取得领先表现。
- 生态与系统升级:
- 引入MCP工具自动创建和MCP Manager Agent,实现多Agent与工具的高效合作和动态管理。
- 构建包含规划Agent、深度调研Agent、浏览器Agent、数据分析Agent等协同架构。
- 战略价值:该Agent系统的强通用性、自主性和适应性,奠定了行业领先的智能基座地位,显著提升AI在科研和信息服务领域的应用质量。
- 数据点:
- 冗余图片流量减少约65%
- 多模态搜索准确率提升至38.7%
- 综合点评:昆仑万维以多模态深度调研Agent突破传统单一模式限制,优化了调研效率和信息深度,技术框架先进,应用前景广阔。[page::2][page::3][page::4]
2.4 AI融资动态重点 — Cohere D轮融资案例
- 融资概览:
- 2025年8月15日,加拿大Cohere完成5亿美元D轮融资,估值由50亿美元提升至68亿美元,融资由Radical Ventures和Inovia Capital领投,英伟达、AMD Ventures等参与跟投。
- 技术与产品特色:
- Cohere专注企业级大语言模型,核心产品Command A性能媲美GPT-4,响应速度提升75%。
- 产品支持200页长文档处理,支持本地安全隔离部署,突出企业数据安全需求。
- 推出针对知识型工作者的ChatGPT风格工具North,实现高效文档摘要。
- 市场与业绩展望:
- 预计2025年年化收入突破2亿美元,同比增长约20%。
- 公司战略聚焦企业级定制化AI方案,打造从基础设施到应用的完整技术生态。
- 商业意义:这一融资反映资本市场对专业企业级AI解决方案的持续认可,对行业具有示范效应。
- 综合点评:Cohere的快速成长和技术深耕为全球企业级AI市场树立标杆,对AI应用生态的成熟和产业链完善具有积极影响。[page::4]
2.5 投资建议与机器人产业观察
- 机器人运动会表现:
- 8月14-17日在国家速滑馆举行的2025年世界人形机器人运动会,共280支队伍,颁发26枚金牌。表现最亮眼为宇树科技和北京人形机器人创新中心。
- 赛事揭示机器人在算法鲁棒性、执行稳定性及运动协调性方面存在明显短板,尤其是100米障碍赛仅两组完成比赛,感知泛化及环境适应性较弱。
- 产业潜力评估:机器人产业潜能逐步释放,智能决策和综合性能有所提升,长期看好。
- 重点关注标的:嘉和美康(688246.SH)、亿道信息(001314.SZ)、迈信林(688685.SH)、泓淋电力(301439.SZ)、唯科科技(301196.SZ)等企业,均具备AI产品落地、行业合作及技术扩张潜力。
- 风险提示:
- AI核心技术迭代速度、政策监管环境及版权风险。
- AI应用实际落地效果波动和重点推介标的业绩不达预期可能性。
- 行情表现:
- 上周AI算力指数、AI应用指数表现活跃,部分个股如英维克和寒武纪-U涨幅显著。
- 综合总结:行业维持积极推荐立场,结合创新动力与产业应用价值,建议配置具备稳健研发和市场开拓能力的细分赛道龙头。
[page::4][page::5]
---
三、图表与数据深度解读
3.1 图片(封面横幅图,images/f0fd687da525053ebbc031e7c095b74ee55f37d4c12ce123678912ad49b8f216.jpg?page=0)
- 描述:封面横幅以“华鑫计算机”大字展示,背景为抽象网络连接图,象征计算机和互联网行业的技术网格与节点联通,凸显科技前沿属性。
- 意义解读:视觉传达出行业的前瞻性及技术链接点特征,符合行业周报内容的科技感框架。
- 关联文本:作为封面视觉元素,强化中心话题的“计算机+AI”技术背景氛围,增强报告专业形象。[page::0]
3.2 表格(投资评级说明)
- 描述:投资评级表分别说明个股和行业的买入/增持/中性/卖出及推荐/中性/回避评级对应的相对市场表现区间。
- 解读:明确评级标准,为投资者理解后续个股及行业分析提供量化参考,体现研究的规范化和透明度。
- 价值:帮助读者准确把握每级评级对应的收益预期区间,便于风险收益匹配。
[page::6]
---
四、估值分析
- 本报告未详细披露单独估值模型和具体目标价,但通过行业观点、技术突破及融资动态分析,隐含了对相关企业较高成长预期和投资价值的认可。
- 文中对Cohere等标的的市场估值及增长预期进行了充分披露,显示企业级AI赛道技术领先者获得超过68亿美元估值,年化收入预期超过2亿美元,说明资本市场对该领域成长空间评价较高。
- 结合算力价格稳定及多模态AI模型应用落地,行业整体呈现稳健估值支撑基础,投资建议中体现对重点个股的中长期增长空间的正面预判。
[page::4]
---
五、风险因素评估
- 技术迭代风险:AI底层算法和模型更新不及预期,可能影响企业竞争力和行业发展速度。
- 政策监管及版权风险:包括数据合规、知识产权保护法规可能加强,对AI产品研发和商业部署造成限制或成本上升。
- 应用落地风险:AI解决方案实际效果或用户接受度低,造成技术无法转化为经济效益。
- 业绩波动风险:推荐企业业绩不及预期可能引起投资回报下滑。
- 缓解策略:报告未详述具体缓解措施,但市场多元化布局和技术创新持续投入是自然缓解路径。
[page::4][page::5]
---
六、批判性视角与细微差别
- 技术领域快速迭代的挑战:虽报告展示了诸多技术突破,但AI领域技术更替速度极快,不排除GLM-4.5V及Agent技术短期内被更新产品取代。
- 样本偏差风险:GLM-4.5V和Skywork Agent绩效评测多集中在特定基准测试,实际广泛应用表现仍需时间验证。
- 商业化挑战:虽然模型开源且API价格具优势,但大规模商业应用需要考虑算力成本、用户隐私和安全监管,存在不确定性。
- 机器人产业短板依然明显:机器人运动会表现虽有亮点,但障碍赛等关键技术尚薄弱,说明智能决策和感知系统仍处于发展阶段。
- 风险披露简略:风险提示全局较简洁,未深入探讨潜在地缘政治风险、技术标准壁垒等可能影响产业链外部因素。
- 整体视角:整体研究较客观严谨,但作为行业周报,更集中于积极动态和成长机会,投资者应结合宏观环境和执行连续性作进一步研判。
[page::1][page::4][page::5]
---
七、结论性综合
本期华鑫证券计算机行业周报详尽梳理了智能算力市场的价格态势、AI视觉多模态技术的最新发展及重点企业动态,对智谱AI发布的GLM-4.5V模型与昆仑万维的多模态深度调研Agent进行了全面而深刻的技术和应用剖析,揭示了两者在参数规模、模型架构、训练策略、实际应用层面的革命性突破。智谱AI的GLM-4.5V通过引入三维旋转位置编码及支持超长上下文处理,在视觉推理能力上实现业内领先;昆仑万维Agent则凭借多模态爬取、大规模合成训练及多智能体协同机制,在调研效率和搜索准确率上刷新行业纪录。
此外,通过聚焦Cohere 5亿美元D轮融资案例,报告指出企业级AI定制解决方案的市场潜力巨大,资本市场对该赛道的热情依旧高涨。机器人运动会的赛事观察进一步展现智能机器人技术的提升空间,为相关公司提供中长期投资价值指引。
数据层面,算力租赁价格的平稳为大模型训练与推理提供成本保障;GLM-4.5V与Agent系统在基准测试中表现优异,关键指标如参数规模超过千亿级、准确率提升超过10个百分点,为AI应用提供了有效支撑。
综合各项成果,华鑫证券维持计算机行业推荐评级,继续看好多模态AI技术创新带来的爆发式成长机会,重点关注具备底层技术积累和实际产品落地能力的优质标的,建议投资者关注技术迭代节奏与政策监管动态,审慎把握行业发展脉络。
本报告在对关键技术与市场表现进行充分诠释的同时,结构严谨、重点突出,风控充分,充分满足金融投资决策所需的信息深度和广度,为投资者理解AI及计算机行业的目前和未来趋势提供了重要参考。
---
参考与溯源
本文内容均基于华鑫证券2025年8月18日发布的《智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent—计算机行业周报》全文,[page::0][page::1][page::2][page::3][page::4][page::5][page::6]
---
图片文件示例(封面横幅):
