策略分享

司帆:从ChatGPT看大数据的发展与未来

由kuailian创建,最终由kuailian 被浏览 96 用户

会议:开源一席谈 日期:2023年2月24日 主办:开源证券金融工程魏建榕团队 会议主题:从ChatGPT看大数据的发展与未来 特邀嘉宾: 司帆:中国人民大学硕士,多年证券从业经验。2011年加入华夏基金,历任量化策略研究员、投资经理、负责多只量化专户的投资工作,现任华夏基金数量投资部基金经理。目前在管规模30.38亿元,在管产品数量12只。 陈宝健:开源证券计算机首席分析师。清华大学计算语言学硕士,曾先后任职于华创证券、国泰君安证券等机构,对信创/人工智能/云计算/信息安全等有深入研究。团队公众号(点击跳转):健谈计算机。

\

对话实录(主持人:傅开波)

Q1:近期最火爆的概念,无疑是ChatGPT了。人工智能、ChatGPT成为目前科技圈争先入局的火热赛道,带动了大数据板块的上涨。请问您是如何理解大数据?

司帆:12月1日,美国人工智能公司OpenAI推出了自然语言处理领域(NLP)的模型ChatGPT,一周内用户突破100万,一跃成为本次跨年行情最耀眼的概念。其实从产品角度来说,ChatGPT不属于特别新的产品,其原型已经有好几年的历史了,之所以在近期才产生了巨大的影响,主要是因为其背后技术的持续发展,使得ChatGPT相对于前辈具有更好的客户体验,简单说就是更像一个“人”了。而在其背后起作用的主要就是人工智能、大数据和云计算等三大技术。这三大技术都是目前科技领域非常火的概念,日常提起的时候也总是同时出现,那它们有什么区别和联系呢? 首先看人工智能,它主要是研究如何用计算机来模拟人的某些思维过程和智能行为,比较偏重于方法的研究,比如我们常听到的决策树、神经网络等模型都是对于人们思考方式的模拟。由于人的智能非常复杂,因此人工智能算法往往也需要进行很多层次的计算,反复迭代、反复对模型进行训练。再来看大数据,大数据的英文写法是big data,字面意思指的是巨量的用于分析的数据。举个例子,商业机构、金融机构每天都能产生天量的数据,这些数据对分析客户行为模式、判断资产价格走势、预测经济景气周期等都具有重要意义。但这些数据又具有数据量大、充满随机性、相关性高等特点,靠人力进行分析完全没有可能,这个时候就要借助前述的人工智能算法对大数据进行深入挖掘。 将人工智能和大数据结合起来看,可以发现二者都需要巨大的计算量和存储空间,对于单个研究者来说成本、时间耗费实在太大了。这个时候云计算就登场了,它通过网络“云”将巨大的数据计算处理任务分解成无数个小任务,再通过多部服务器组成的系统对这些小任务进行处理和分析,得到结果并返回给用户。可以说云计算是人工智能和大数据分析的基础,极大地改善了效率和成本。概括起来说,这三大技术是一体三面的关系,面对一个具体的问题时,研究者在云计算设施上运行人工智能算法,处理大数据,以得到最优化的解决办法。

Q2:ChatGPT的应用场景不断扩容,您觉得会对哪些领域有较大的影响?

陈宝健:ChatGPT是人工智能技术驱动的自然语言处理工具,它可以不停地学习和理解自己产生的语言和提问者的语言,并融合问答的上下文进行解答,给人的感觉就是很智能,像是在和人一样聊天对话。除此之外,它还可以写邮件、写文案、写代码,甚至还可以写论文和新闻报道。我们看微软之前就表示要把ChatGPT全部整合到搜索引擎、办公office、云服务等全部产品线之中,所以ChatGPT的应用场景还是比较广阔的。我们认为当前最值得期待,也是改善比较明显的场景,就是将ChatGPT应用到搜索引擎上。通过融合ChatGPT和传统搜索引擎融合,不仅得到的搜索效果更智能、更精准,也会给用户更好的使用体验。

Q3:近期北京市率先发布政策支持ChatGPT产业发展,这将有望带动更多地方政府效仿,预计ChatGPT类技术将陆续迎来政策利好集中发布期。从这个角度看,ChatGPT赛道的火热,能给大数据带来怎样的发展机遇?

司帆:2月13日,北京市经济和信息化局在北京人工智能产业创新发展大会上,对外正式发布了《2022年北京人工智能产业发展白皮书》,其中特别提到了支持头部企业打造对标ChatGPT的大模型,是国内首个明确政策支持类ChatGPT技术的地方政府。除了北京市的政策支持外,2019年以来国家陆续出台数据要素基础制度及配套政策,统筹推进全国数据要素市场体系,数据要素市场化将为人工智能等算法模型提供更多高质量的训练数据,进而推动数据生产力的释放。另外,据国家工信安全发展研究中心测算数据,2021年我国数据要素市场规模达到815亿元,预计“十四五”期间市场规模复合增速将超过25%,整体将进入群体性突破的快速发展阶段。在这个发展过程中,必然伴随着我国云计算、大数据行业的蓬勃发展。 具体到ChatGPT对我国云计算和大数据的拉动作用,主要表现在:1、国内类ChatGPT产品的落地。在ChatGPT推出后,国内的计算机、通信企业快速反应,纷纷推出自己的类ChatGPT产品,如百度的“文心一言”、阿里版聊天机器人、京东的产业版本ChatJD、科大讯飞版ChatGPT等,都是在已有技术储备下可以尽快上市的类ChatGPT产品。另一方面的影响更为显著,即由此带动的相关产业的需求增长。特别是针对支撑AI大模型算力的底层基础硬件的投资是更具确定性的主线。简单地说,AIGC产业链主要涵盖底层的芯片、云计算设施、数据收集,中间层的算法模型开发,以及终端的模型应用。随着ChatGPT带来的鲶鱼效应,国内外科技巨头加快生成式AI布局,未来对于算力资源和数据的需求将飞速增长,作为“卖铲人”的底层基础硬件供应商和数据供应商将持续受益。

Q4:相对于白酒、新能源汽车等具象的消费品,以及渗透到生活各个方面的互联网行业等等,很多投资者对大数据是比较陌生。那么大数据的产业链是什么呢?我们投大数据的时候,具体投的是什么呢?各板块当前的景气度如何?

司帆:我们考察大数据行业,其实应该从我国数字经济和数据要素市场的角度出发,这样才能将大数据行业看的更加透彻。所谓数据要素市场是将尚未完全由市场配置的数据要素转向由市场配置的动态过程,其目的是形成以市场为根本调配机制,实现数据流动的价值或者数据在流动中产生价值。从产业链的角度看,数据要素这个产业可以划分为数据采集、数据存储、数据加工、数据流通、数据分析、数据应用、生态保障等7个环节,覆盖数据要素从产生到发生要素作用的全过程。 数据采集行业是数据要素中游产业的起点,2021年数据采集行业集中度(CR4)为78%,行业集中度较高,其处于中等寡头垄断行列,当前已形成稳定的市场垄断局面。数据存储的市场竞争激烈,以华为、浪潮、曙光、联想等多家企业为代表,占据53.0%的市场份额,行业市场集中度算在中等寡头垄断行列。数据加工市场集中度较低,行业集中度(CR4)不足10%,市场竞争激烈,市场参与厂商众多,且企业整体规模较小。数据交易流通的发展仍处于起步阶段,其中数据确权是关键环节,也是目前发展最慢、难度最高的环节。数据分析市场集中度是最高的,且较为稳定,行业集中度(CR4)在90%左右,行业进入壁垒较高,数据的分析能力直接决定了数据的价值。数据应用方面,当前数据已应用于各个行业,包括金融、电信、能源等。从各个环节的竞争格局上来看,可以认为拥有数据资源、进行数据分析以及保障数据数据安全的企业有着较好的投资机会。大数据50ETF中对相关板块的股票都有覆盖。

Q5:国际上科技竞争愈演愈烈。在大数据领域,国内外都有哪些龙头厂商,它们在关注什么,在做什么?国内厂商的竞争优势在哪里?

陈宝健:我们看到国外比较有名的独角兽型的大数据分析公司,有Palantir、Premise、Datameer等等,这些知名独角兽或者龙头公司的表现大家有目共睹。它们的关注点和行动落脚点,我们可以以大家比较熟悉的Palantir为例进行分析。成立于2000年的Palantir是非常知名的大数据分析公司,它最早时候的业务是服务于FBI、CIA等政府机构,后来业务领域才逐渐扩大到金融、能源等多个领域。Palantir最出名的一次还是在帮助美国军方通过数据分析成功定位到本拉登的所在地,其市值最高时一度接近400亿美元。以Palantir为例是因为它的成长路径是非常具有代表性的,基本上可以分成三个阶段:第一阶段,在刚成立的时候专注于某个特定领域,比如Palantir最初专注于情报分析,在政府领域做得很好;第二阶段,开始快速拓展其业务范围,Palantir随后将业务拓展到了需求比较旺盛、客户付费能力比较强的金融领域;第三阶段,业务范围进一步扩大,Palantir的业务范围如今已经涉及到了医疗、零售、生物科技等各种各样不同的领域。另外,Palantir的技术是基于知识图谱,能够提供数据的集成、搜索、实时管理、协作发现等功能的大数据分析平台,它不仅可以同时处理多种数据来源,还可以允许用户通过多种方式浏览、查找、分析数据,甚至可以通过这些数据去对未来做出预测,因此很受欢迎。 我们通过了解Palantir的成长路径,可以看到国外大数据公司的普遍特点是技术实力强,业务覆盖的行业范围广。反观国内的大数据厂商,我们可以看到它们在数据的采集、存储、清洗、分析、可视化等应用层面进展明显,但在与大数据相关的一些技术理论、核心算法、关键软件等层面,可能还是存在一些不足。国内大数据厂商的优势其实还是在于对于本土的垂直市场更有了解,对相关行业的挖掘也更加深入,所以它们做的产品是更符合国人的需求和实际情况的。A股的大数据公司也有很多,比如拓尔思、东方国信、星环科技等等,它们在自己的业务领域也做得很有特色。

Q6:ChatGPT指明了NLP生成领域的技术方向,从技术本源上加速AIGC发展,能否给我们介绍一下AIGC产业链,及具体板块的估值和盈利水平如何?

陈宝健:AIGC是用AI去生成内容,它也是人工智能非常重要的一个研究领域,它有几个非常重要的要素,分别是数据、算力和算法。那么我们就从A股相关各个环节,对这些公司进行分析: 首先是做数据的环节。A股有一些大数据的公司,另外还有一些做数据标注的公司,例如海天瑞声,也是之前炒AIGC的一个龙头公司。另外还有一部分是做算力的,其实就是与底层的一些芯片相关,包括浪潮信息,中科曙光,寒武纪,景嘉微,海光信息,龙芯中科,中国长城等等,这是第二个环节。还有第三个环节就是做算法,垂直场景应用的,比如说科大讯飞、360、金山办公、同花顺等等。以上分别是算力、数据、算法和场景三个环节。 整体上来看,最近因为计算机板块还是比较火,这些公司涨得也都还是比较多,估值也都比较贵;相对来看便宜一点的,可能是算力这个环节,就是做底层的芯片和服务器,比如说浪潮信息、中科曙光,他们对应的2023年的估值,大概目前来看还是不到30倍的。如果说做算法、做数据的环节,这些估值基本上就已经是非常贵了。

Q7:相对于火爆的ChatGPT来说,大数据其实并不是很新的概念,而是经历了长久的新老技术的更迭和演进。大数据的长期投资逻辑是什么?如何看待大数据的技术现状和未来趋势?哪些领域的公司可能会脱颖而出?

司帆:先说长期投资逻辑。过去几年,数字经济快速增长,数据作为新的生产要素参与经济发展。数字经济成为驱动我国经济发展的关键力量,根据国家工业信息安全发展研究中心发布的数据,2021年,数据要素对GDP增长的贡献率和贡献度分别为14.7%和0.83个百分点,数据要素成为我国经济发展的又一引擎。站在当前时点看,大数据产业具有政策+技术双轮驱动的特征。政策方面,2020年4月9日,中共中央、国务院印发《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据明确为生产要素。国家及地方政策不断出台,为数据要素产业发展注入强心剂。2022年12月19日,作为我国首份专门针对数据要素的基础性文件,“数据二十条”《关于构建数据基础制度更好发挥数据要素作用的意见》发布,为我国数据要素市场建设起到“指南针”的作用。数据要素市场广阔,产业链迎来发展良机。技术方面,人工智能等技术落地,加速数字经济发展。新一轮科技周期持续演进,我国数字经济产业蓬勃发展,正推动人工智能、量子计算等前沿技术突破和应用。 再谈一下技术现状和趋势。总体来说,先发国家在数字经济发展上的主导优势不变,但新兴市场国家正加速缩小差距。从专利数量看,通过对全球PCT专利数据的分析,相比20年前全球90%的PCT专利聚集在欧美等西方发达经济体,近年来在以中韩等为代表的新兴力量带动下,亚洲地区PCT专利占全球总量的比例从16.6%提高到54%。其中,数字技术专利申请是关键因素,从2021年PCT专利申请量来看,中国排名前三的技术领域是计算机技术、数字通信和视听技术,韩国排名前三的是数字通信、电子设备和计算机技术。国家知识产权局数据显示,截至2022年6月,中韩日三国5G标准必要专利占全球比例已达57.2%,其中我国占比40%领跑全球,韩国和日本分别占比9.2%和8%,位列第三和第四位。 最后说一下可能脱颖而出的产业,主要还是集中在计算机信创、通信和半导体等几个行业上。

Q8:这一波受ChatGPT概念的催化,整体大数据板块估值有所回升,当前大数据板块整体的估值水平和盈利水平如何?当下您更看好哪个细分板块?

陈宝健:因为最近ChatGPT比较火,整个计算机板块热度也都还比较高,很多公司的估值也都是涨了一波,涨幅也比较多。对于这个整体的大数据情况来看,可以分为数据的采集,存储,分析,交易,数据的安全等等。 从数据的采集、存储、分析、交易环节来看,经过这一轮上涨,估值其实都已经很贵了,对应着2023年都已经是大几十倍的一个估值。目前来看,关于数据的安全这个环节,相对来讲估值还是比较便宜的,因为参与到数据安全、网络安全的很多公司,他们大概对应2023年的估值,现在来看的话,大概也就是30到40倍的一个水平。 另外,对于大数据的环节,我们是当下更看好数据的分析,还有数据的交易这两个环节,这两个环节的价值量是比较大。对于数据的分析,是可以挖掘数据的潜在价值,对企业的价值也比较大;而数据交易,则可以使数据开始流通,现在我们看到各地也都设立了一些大数据的交易所,因为这个数据在流动的时候,它才会产生更大的价值,也可以创造更好的经济和社会效益。 从投资角度来看,数据交易在国内目前还是属于试水和不断完善的这个阶段,但是我们觉得随着设计规划的出台,还有交易制度逐渐的完善,数据交易这个环节是可以爆发很大的潜力,因为现在也是数字经济时代,数字经济时代的一个底层是数据要素,就是大数据,那你这个数据要怎么样去流通,数据怎么样去进行交易,怎么样在交易中产生更大的价值,我觉得不管是产业还是资本市场当前都是大家关注的一个焦点,所以这也是我看好的一个方向。

Q9:2023年如何看待成长、价值风格切换?市场上成长与价值风格切换如何影响大数据板块的具体投资?

司帆:对于2023年市场风格的判断,我本人还是比较看好成长板块的投资机会的。主要原因是2023年经济、货币等因素。我们都知道,对股票估值一般都是用自由现金流折现法。对于成长股来说,它的自由现金流主要集中在多年后的未来,价值股的自由现金流则主要呈现匀速分布或集中于当前。2022年,全球股指之所以下跌严重,也正是由于折现率的上升,其背后原因是因地域政治动荡引起的全球性通货膨胀,进而导致了美联储多次加息。随着加息已经达到接近5%的水平,以及国际货币基金组织对于2023年全球经济增速相对放缓的预测,我认为进一步加息的可能性不大,甚至有可能出现货币再次宽松的可能。在这个背景下,市场将有利于成长股的估值。 具体到大数据的投资机会上,就像前面说的,数据产业在我国还属于一个新兴行业,具备成长股的典型属性,因此成长风格也必然会带动大数据板块的行情。

Q10:如何一键化投资大数据板块?能否介绍下华夏基金相关产品的基本情况?

司帆:对于看好人工智能、大数据和云计算板块的投资者,有两种选择,或直接投资股票,或通过ETF投资于行业。然而投资个股对于个人投资者其实并不是特别好的策略,主要原因是个人投资者在精力投入、个股研究深度和持仓分散化等方面都难以做到最优,特别是持仓分散化不足会导致投资风险剧增。在这种背景下,个人投资者投资于特定行业或主题的ETF是一个比较好的选择。 对于这三个板块,华夏基金都发行了相关的ETF,分别是华夏中证人工智能ETF、大数据50ETF和云计算50ETF,看好的投资者可以通过这三个ETF进行一键布局。在ETF方面,华夏基金具有丰富的管理经验,严格按照完全复制的方法进行管理,追求对标的指数的紧密跟踪,尽量为投资者降低波动风险。 人工智能概念直接相关的有华夏人工智能AIETF(515070)及联接基金(008585/008586),跟踪的指数是选取业务涉及大数据、云计算、云存储、机器学习、机器视觉、人脸识别、语音语义识别、智能芯片等领域的上市公司证券作为待选样本,所以一个产品打包了人工智能的三要素;数据和算力要素相关的产品有华夏大数据50ETF(516000),它跟踪的指数选取业务涉及大数据存储设备、大数据分析技术、大数据运营平台、大数据生产、大数据应用等领域的上市公司证券作为指数样本;华夏云计算50ETF(516630)跟踪的指数从沪深市场中选取50只业务涉及提供云计算服务、大数据服务以及上述服务相关硬件设备的上市公司证券作为指数样本。

(全文结束) (纪要整理:林希民、姚烨)

风险提示:上述内容和意见仅作为客户服务信息,并非为投资者提供对市场走势、个股和基金进行投资决策的参考。本公司对这些信息的完整性和准确性不作任何保证,也不保证有关观点或分析判断不发生变化或更新,不代表本公司或者其他关联机构的正式观点。历史业绩不代表未来收益,基金投资需谨慎。 1、本基金为股票基金,其预期风险和预期收益高于混合基金、债券基金与货币市场基金,具体风险评级结果以基金管理人和销售机构提供的评级结果为准。2、基金资产投资于港股,会面临港股通机制下因投资环境、投资标的、市场制度以及交易规则等差异带来的特有风险,包括港股市场股价波动较大的风险、汇率风险、港股通机制下交易日不连贯可能带来的风险等。3.以上基金存在标的指数回报与股票市场平均回报偏离、标的指数波动、基金投资组合回报与标的指数回报偏离等主要风险。4.投资者在投资以上基金之前,请仔细阅读以上基金的《基金合同》、《招募说明书》和《产品资料概要》等基金法律文件,充分认识以上基金的风险收益特征和产品特性,并根据自身的投资目的、投资期限、投资经验、资产状况等因素充分考虑自身的风险承受能力,在了解产品情况及销售适当性意见的基础上,理性判断并谨慎做出投资决策,独立承担投资风险。5.基金管理人不保证以上基金一定盈利,也不保证最低收益。以上基金的过往业绩及其净值高低并不预示其未来业绩表现,基金管理人管理的其他基金的业绩并不构成对以上基金业绩表现的保证。6.基金管理人提醒投资者基金投资的“买者自负”原则,在投资者做出投资决策后,基金运营状况、基金份额上市交易价格波动与基金净值变化引致的投资风险,由投资者自行负责。7.中国证监会对以上基金的注册,并不表明其对以上基金的投资价值、市场前景和收益作出实质性判断或保证,也不表明投资于以上基金没有风险。8.本产品由华夏基金发行与管理,代销机构不承担产品的投资、兑付和风险管理责任。9.根据《证券期货投资者适当性管理办法》,本次直播的观点和信息仅供风险承受能力适合的投资者参考,若您并非风险承受能力匹配的投资者,基金管理人提示您充分考虑自身情况作出是否继续参与直播活动的判断。直播内容不构成对于投资人进行投资的任何实质性建议、承诺和保证,基金管理人不对投资人使用本直播内容引发的任何直接或间接损失承担任何责任。本直播仅限于基金管理人与合作平台开展宣传推广之目的,禁止第三方机构单独摘引、截取或以其他不恰当方式转播。基金有风险,投资须谨慎。

标签

ChatGPT金融工程

文档

StockRanker机器学习中的疑问