伦敦证券交易所:海外量化趋势与另类数据最佳实践
由small_q创建,最终由small_q 被浏览 22 用户
摘要
“5月17日,由华泰证券、宽邦科技、亚马逊云科技、朝阳永续、金融阶等多家市场权威机构联合组织撰写的《2021年中国量化投资白皮书》成渝专场顺利举办,伦敦证券交易所资深技术专家卓坤庆以《海外量化趋势与另类数据最佳实践》为题发表演讲,我们对文字进行实录,以飨读者。”
正文
01全球避险基金资金正向流入 算法研究不断增多
今天我主要跟各位分享另类数据。所谓量化就是要“量”。另类数据是指它本来存在的形式不是数字型,因此就会产生很大的麻烦,到底怎样应用在算法里面,我今天主要介绍的是这部分。
首先介绍一下我们公司,我们公司是伦敦证券交易所数据与分析部门,早前是路透社,路透先生是一个德国人,在一百多年前还没有任何通信设备的时候,第一笔生意做的就是飞鸽传书传送股票交易信息。为什么路透社与金融相关?交易员需要的最快地得到信息,能够最快地在市场上反应。两年前,我们变成伦敦证券交易所的一个部门叫“路孚特”。
先用两个海外的调查来分享目前海外量化趋势。preqin每年会公布避险基金在策略上的资金流向,他们把策略分为几类:信用、利基、多策略、事件驱动、CTA、宏观、相对价值、股票。2017年整个避险基金的资金流向是正的,可是2018年、2019年、2020年三年都是大幅流出,一直到去年又是正向的流入。
以上针对算法交易的问卷调查,算法交易有几个目的:一是交易大单时帮助切单,或者说是帮助隐藏交易意图,例如最流行的就是冰山,下1千万会被市场发现,于是以先挂1百万,成交之后它算法、程序自动挂单。这与把一千万切成5份下单,是完全不一样的概念,使用算法交易能够获得非常大的相对优势。
交易成本分析也是一个非常流行的趋势,交易渠道越来越多,在不同券商下单差异不一定只在手续费,基础设施、后台系统会导致反馈很慢或者成交价格与市场价格差很多。回到量化交易管理系统需要分析下单这个当下、这个时间点、现有报价去决定单要下到哪个渠道,这个就是我们会做交易成本分析的目的。
比如超过500亿的机构平均会有4个下单渠道,70%以上的交易量都是使用算法交易而不是使用直接的人工敲单来做。
02海外量化关注另类数据及交易成本分析
海外市场量化趋势跟中国市场会有蛮大的差异。当前趋势主要表现在另类数据、事件驱动、高频交易、机器学习与交易成本分析方面。
另类数据如ESG关注公司除了盈利之外,环境和治理问题。主要来自于年报,但数据频率很低,而且相对比较滞后,很难用来做量化。
舆情是实时的,比如苹果发布一个新产品,全世界开始骂或者叫好都会对量化策略形成某种影响。
卫星图像是影像数据不是数字,但会产生信息,如某工厂,原本一天出车50台,这个月出车5台就需要分析。
气候也是一个很热门的点,与旅游、交通运输、农产品期货息息相关。
事件驱动比如金矿倒塌、公司丑闻、新冠肺炎、俄乌战争之类事件发生之后就会产生新的交易机会。
高频交易方面,我们把程序放在纽交所旁边的机房里面,延迟就会很低,市场会移动,股票50块,需要花0.5秒的话,成交回来变51块,就会造成算法没有办法完整的达到交易的目的。
现在机构是越来越重视交易成本分析,如前所述就是分析交易后的数据,比如过去一个月我下了五百个单,从我决定到成交时间花了多少,滑价多少,哪个下单渠道最合适是交易成本分析可以做的。
择时方面,外汇交易是一个很特殊的市场,24小时都有人交易,但亚洲时间早上9点的资金、交易员与晚上九点的是不同的,所以不同的时间点会有不同的特征表现。可以用择时分析出特性,决定在哪个时段下单。
03新闻舆情实战案例
说到新闻舆情,舆情分析它到底是做什么?
非结构化的新闻内容一样,人看得懂,但是用在量化、算法里面,无从用起。我们需要去做一些分析把这些内容转成结构化的数据,这是我们第一层要做的处理,也是我们的工作。我们从6000多个新闻媒体或者社交媒体来的信息内容,会组成3万多个不同的指数、指标。包括针对中国这一区域,个别的股票或者是个别的产业,包含从1998年到现在的历史,这个舆情指数的产品叫做MarketPsych,里面还有一个ESG的产品就是专门针对ESG来做分析,分析了12个语言来源,如果有争议事件我们会单独列出来,比如说这家公司最近争议事件很多,它经常被员工或环保团队告都会列成指标。
这是客户实际使用的案例,我们拿前20%来做一个组合跟最后排名的20%来做组合,长期而言可以看出它的差异性。
这是大众碳排放数据测试造假丑闻事件发生了之后,ESG的舆情指数发生大幅度的变动,股票基本上也是交易在它以往的水平之下。
04什么算机器可以阅读的新闻?
再跟各位介绍一下新闻的数据,我们的产品线叫“机器可以阅读的新闻”,它的特点就是有很多的元数据,这些元数据跟人工智能NLP打的标签不一样。因为NLP处理再好都有一个准确度的问题,元数据新闻是新闻记者在记者站做输入的时候,根据提示相关的关键词填写的。记者知道新闻里面到底跟哪些机构或者哪些产业、关键词有关。一则新闻里面有Apple,你不一定能把它联接到苹果公司,搞不好它是讲苹果水果价格上涨,我们必须根据上下文、关键词去判断它到底是哪个主题、哪一家公司、哪个产业。 这是我们帮一家指数公司做的应用,寻找相关公司,比如电动车相关,我们不能直接拿电动车这个关键词进去查新闻,因为很多描述里面没有这个词,比如锂电池、控制系统。我们做一些新闻分析挑出来相关的部分做一些模糊比对或者做分析,测试相关程度是多少,我们找不到完美的套利机会,到那时可以用统计套利找两个很相近的公司。
这是知识图谱,在数据库里面,红色的就是人,可能是他的高管、董事。蓝色的是企业,星号是表示上市公司,可能是供应链、母子公司、同集团的关系,可以根据图的算法自动决定关系。
两家公司ESG的表现是否类似,发生在同一则新闻的机率有多少,如果过去有1万则新闻,里面有20则他们两家公司都在一起,那他们是不同产业,八竿子打不着,但是因为某种原因经常同时出现,我们就可以自动化去判断这两个公司或实体到底是不是类似。
这是我们帮客户设计的实时的新闻预警系统,现在新闻不是资讯不够而是资讯爆炸,我们从一些实时渠道去做一些分析之后,是不是共同出现、是不是有相似性、互相之间是不是有关系,这些指标都做计算之后,由引擎判断新闻是不是我的算法感兴趣的,可以去做一个有效的信息筛选。
今天就分享到这里,随时欢迎与我们联系,谢谢。