【研报分享】海通量化:金融科技(Fintech)和数据挖掘研究(二)——知识图谱的构建与应用

数据挖掘
海通
标签: #<Tag:0x00007f5206a0cbc0> #<Tag:0x00007f520676bc40>

(daonaldo) #1

引言

知识图谱的概念最早于2012年由谷歌提出,是一种直观显示各个实体关联信息的有效数据结构,旨在描述真实世界中存在的各种实体或概念及其关系。通过知识图谱,我们可以进行产业链的挖掘,建立更为全面深入的事件驱动投资策略,构建知识图谱类因子,改善现有分析框架等。

本文主要对知识图谱历史与构建方式作简要介绍,并从产业链挖掘,事件驱动,构建知识图谱因子与改善现有分析框架四个方面简述知识图谱技术如何应用到投资实践当中。

1 知识图谱的介绍


1.1 什么是知识图谱


知识图谱的概念最早由谷歌提出,本质上是谷歌在2012年推出的一个项目,即“Knowledge Graph ”。该项目将搜索结果进行知识系统化,以建立更智能的搜索引擎,旨在让用户能够更快、更便捷地发现新的信息和知识。随后,知识图谱的概念在学术界和业界普及并推广。目前,在智能搜索、智能问答以及个性化推荐领域等发挥着重要的作用。

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,因而可以简单地把它看作是一张巨大的网络。其中,网络的节点表示实体或概念,而节点之间的边则由属性或关系构成。

三元组是知识图谱最常用的表现方式,在图像网络中的基本形式为“节点1-边-节点2”。节点包括实体、概念、属性值等,边包括关系、属性等。节点与节点之间通过边进行连接,一个标准的三元组包括“实体1-关系-实体2”和“实体-属性-属性值”等。

  • 节点的类型

实体:指客观独立的个体或者某种事物,可以是某一个人、某一个国家,也可以是某一种商品等等。世间万物都可以视作一种实体,如:巴菲特,中国,iphone等。实体是知识图谱中最基础的元素,不同的实体间通过某种关系进行连接。

概念:具有相同特性的实体组成的集合,如投资大师、国家、手机等。也指事物的类别和种类、某些抽象概念,如人工智能、地理等。在某些时候,概念和实体的界限并不明显。

属性值:指实体某种属性的值,如:中国(实体)的面积(属性)为963万平方公里(属性值)等。

  • 边的类型

关系:描述了实体及概念之间的联系,也是两个节点之间的边。比如,中国→首都→北京,中国和北京分别是两个实体,首都则是描述中国和北京的关系。

属性:也可以视作是一种关系的类型,主要指实体具有的一些特征和性质,也是实体指向属性值的边,比如生日、面积、人口数量等。比如:中国-人口-14亿,人口便是中国的一个属性,其属性值便是14亿。

如下图所示,我们将一些简单的三元组案例做了图形化的展示,例如,联合国五常(概念)-包括(关系)-中国(实体),中国(实体)-相邻(关系)-俄罗斯(实体),中国(实体)-人口(属性)-13.9亿(属性值)。

1.2 知识图谱的发展历史


虽然知识图谱的概念最近几年才逐渐被大众所知,但知识图谱本身的技术已经有了深厚的基础,而其发展更是可以追溯到上世纪五六十年代。以2012年知识图谱概念的提出为节点,我们可以将知识图谱的发展划分成两个阶段。

1.2.1 知识图谱的前世


1956年,在达特茅斯学院的一次会议上,“人工智能”一词在讨论中被正式提出,这也标志着人工智能学科的诞生。在后期的发展中,人工智能的研究逐渐分成三大分支流派:符号主义、连接主义和行为主义。

符号主义(Symbolism)认为,人类的认知都是基于符号的,思维只是在符号表示上的一种运算,而机器要像人一样思考才能获得智能。因此,符号主义致力于用计算机的符号操作来模拟人的认知过程。连接主义(Connectionism) 从神经生理学出发,认为人的智能是人脑高层活动的结果,因此人工智能可以通过模拟大量神经元的信号传输方式来模拟大脑的智力。行为主义(Actionism)则认为人工智能源于控制论,因此相关的研究集中于模拟人在控制过程中的智能行为和作用。在人工智能前期的研究中,符号主义一直占据主导地位,逐渐发展出了启发式算法、专家系统、知识工程理论与技术等。知识图谱最初的形态“语义网络(Semantic Network)”,就是在此期间发展起来的一种用图来表示知识的结构化方式。

语义网络由J. R. Quillian在1968年提出,其原理是用相互连接的节点和边来表示知识,节点表示实体和概念,边表示节点之间的关系。语义网络本质上也可以看作是一种用于储存知识的数据结构,即基于图的数据结构。从形式上来看,语义网络用自然的语言来描述概念实体之间的关系。其中,大部分描述由用户自行定义,往往缺乏一定的标准,因此来自多个数据源的数据难以融合。

早期的语义网络的不足之处在于缺乏逻辑,并不具备推理能力。因此,从20世纪7、80年代开始,逻辑语义的表示和推理开始成为研究的重点。在这一时期,语义网络与推理学的结合形成了描述逻辑(Description Logics)。从此,基于对象的知识被形式化,因而具备了很强的表达能力和可判定性。

万维网的出现给语义网络提供了一个天然的应用场景,让知识从封闭走向开放。我们可以通过关联来产生更多的知识,而非仅依赖于固定的内部定义。万维网最初的内容只是人类可读,计算机无法理解和处理。为了解决这一难题,1998年,万维网之父Tim Berners-Lee提出了语义网(Semantic Web),初衷是让机器也同人类一样可以很好地获取并使用知识。简单来说,语义网就是为了使网络上的数据变得机器可读,而提出的一个通用框架。

2006年,Berners-Lee提出链接数据(Linked Data)的概念。网络用户可以上传各种图结构的数据,即W3C(万维网联盟)标准的RDF(Resource Description Framework,资源描述框架),让数据之间建立链接,从而形成链接数据。与此同时,大规模维基百科类的知识资源的出现和信息提取方法的进步,催生了一系列高质量的链接数据知识库。例如,Freebase、DBpedia和Yago,它们都为谷歌知识图谱项目的成功打下了基础。

1.2.2 知识图谱的今生


谷歌的知识图谱项目最早源于一个叫“Metaweb”的小公司。Metaweb 是开发Freebase的母公司,在2010年被谷歌收购。该公司专注于将来自多个源头的关于同一个实体或概念的描述信息融合起来,并探索这些实体的属性(例如,年龄和身高等)以及彼此之间的联系,比如“身高226cm的NBA球星”和“姚明”两个描述的融合。Metaweb 存储了1200万个参照点(reference points),谷歌在这个基础上将规模扩张至5.7亿,并在这些参照点之间建立了350亿个连接,最终推出了“知识图谱”。

2012年5月16日,谷歌在其官博上发表了一篇博文:Introducing the Knowledge Graph: things, not strings。在这篇文章中,谷歌的搜索引擎负责人 Amit Singhal正式向外界介绍了知识图谱在谷歌搜索引擎中的应用。知识图谱帮助谷歌的搜索引擎进一步提升了智能化程度,实现了从strings到things的飞跃,具体表现在以下三个方面:

1.找到正确的事物

通常,词语只有在特定的语境之下才能表达出精确的意思,而单独去搜索某个词语经常会面临一词多义的情况。例如:“小米”可以是一种农作物,也可以是科技公司、手机;“火箭”可以是实现航天飞行的运载工具,也可以是一个篮球队的名称。再如,泰姬陵(Taj Mahal)既可以指一个遗迹,也可以指一个音乐家。若我们在谷歌中搜索“泰姬陵”,则会得到如下图所示的搜索结果。在右侧,谷歌会给出泰姬陵的地图及相关介绍等。同时,也会在下方将同名的条目列出来。由此可见,借助庞大的知识图谱,谷歌可以理解实体和实体含义间的细微差别,并且将所有可能的结果归纳分组,让检索更加智能。
image

2.得到最优的摘要

当我们需要搜索某个事物时,借助知识图谱,谷歌可以将它的相关信息汇总,并且有条理地展示出来。但是,一个人或者一个事物的属性通常会很多,搜索者也有不同的关注点,知识图谱不可能将全部搜索结果展示给用户。因此,谷歌会通过特定的算法展示用户最关心的内容。如下图所示,当我们搜索居里夫人的时候,谷歌会将她的简介、生辰、家庭、学术成就等用户最感兴趣的信息进行汇总展示。
image

3.拓展深度和广度

谷歌通过知识图谱将大量的信息连接在一起,这种深层次的网络有时候可以让你发现一些新的事实或者新的关系。《辛普森一家》(The Simpsons)是美国福克斯广播公司出品的一部动画情景喜剧,在美国电视史上有着非常高的地位,该剧的导演是马特·格勒宁(Matt Groening)。

在谷歌搜索导演的名字“Matt Groening”,我们可以发现他的家庭信息。父母分别叫“Homer Groening”和“Margaret Groening”,妹妹叫“Lisa Groening”。《辛普森一家》中的辛普森夫妇也叫“Homer”和“Margaret”,女儿也叫“Lisa”,儿子“Bart”也和导演的名字“Matt”相近。因此,通过知识图谱,我们可以发现《辛普森一家》的命名灵感来自于导演自己的家庭。
image

本质上,谷歌并不是知识图谱这项技术的创造者,而是知识图谱这个概念的推动者。2012年,谷歌推出“知识图谱”的功能之后,知识图谱一词逐渐成为知识应用领域的一个通用词汇。知识图谱也不仅仅局限于谷歌搜索引擎的知识库及服务功能,而是逐渐成为了人工智能领域炙手可热的概念。很多技术积累深厚的互联网公司也纷纷顺势推出自己的知识图谱,比如微软、Facebook、亚马逊、百度、阿里巴巴、美团等。

谷歌的知识图谱主要来源于Wikipedia、Freebase等知识库。作为全球最大的中文搜索引擎,百度的知识图谱的知识来源主要来自旗下的百科、知道和贴吧等。百度的知识图谱产品目前主要分成两大类:智能搜索和自动生成内容。百度知识图谱包含上亿的实体单位,依托知识图谱搜索引擎可以更好地理解用户搜索意图。比如,直接搜索“2020年春节还剩多少天”,百度知识图谱的问答功能会直接生成答案(如下图所示)。
image

除了谷歌和百度在搜索引擎上的功能扩展之外,知识图谱在互联网领域还有着广泛的应用。比如:Facebook在2013年发布社交知识图谱,主要应用于个性化推荐和智能搜索等,重点关注用户的社交偏好信息;美团点评主要关注餐饮娱乐方面,重点从美团点评的用户评价、菜品、标签等数据,构建餐饮娱乐知识图谱——“美团大脑”。

除了在传统的互联网领域,知识图谱在其他行业同样可以起到重要的作用。例如,在反欺诈场景,知识图谱有着天然的应用优势。欺诈团伙通常会用虚假的身份和信息进行诈骗,一个谎言需要无数个谎言来掩盖,而虚假的信息往往容易露出马脚。不一致性验证可以用来判断一个借款人是否具有欺诈风险。比如,借款人A和B分别填写了两家不同的公司,但是填写的公司电话确是同一个,这种情况便无法通过不一致性检验,从而形成一个风险点。

2 知识图谱的构建与使用技术


构建知识图谱的本质是一个从数据采集,数据建模到数据存储的过程。其基本的步骤如下图所示。简单而言,知识图谱的构建过程与数据挖掘的基本流程可以一一对应,即知识图谱构建只是数据挖掘技术的一种实践。
image

2.1 知识图谱的原始数据


作为一种新的组织、管理、认知客观世界的工具,知识图谱的数据来源决定了知识图谱能够描绘出怎样的一个“世界”。与互联网知识图谱不同,要构建金融领域知识图谱,原始数据不能仅仅是从金融文本当中获取到的知识。已知的公司信息,标的信息,价格数据,甚至不同证券的相关性信息都可以作为原始数据帮助构建知识图谱。

由于金融领域的“数据密集型产业”特性,目前已有非常多的数据提供商整理了金融领域中的各种数据信息。利用好这些数据,是获取知识图谱原始数据最有效的方式。

金融领域已有的数据往往会局限于和公司、可交易标的、宏观指标紧密相关的信息。然而,知识图谱的构建往往需要借助其它领域的先验知识,将金融领域的各种实体进行链接。例如,在利用知识图谱分析产业链结构时,产业上下游分别由那些产品构成等相关信息,就无法从金融数据源直接获得。需要对于该行业的先验信息进行分析,才可以获取到相关知识。

网络爬虫是获取原始数据的一种非常有效的工具。通过从特定网站上爬取所需要的内容,可以方便地获得已定位好的先验信息,这对补充构建知识图谱所需的原始数据非常有帮助。

2.2 知识图谱数据的预处理


构建知识图谱所获取的原始数据有结构化与非结构化两种类型,分别对应着不同的预处理方式。

构建金融知识图谱,所需要处理的结构化数据一般包括表格化的证券基本信息,价量信息,基本面数量指标等。明晰的数据结构不仅为数据处理提供了很多便利,而且能大幅提升准确性与高效性。由此得到的知识实体和关系,也较非结构化数据更为准确。

除了传统的结构化数据本身,利用这些数据计算得到的衍生数据也是知识图谱中“实体”或者“关系”的重要来源。例如,可交易证券之间的相关系数、协整系数等。保存这些信息的时变特性,可以让知识图谱随时间演进,为更客观地描述金融市场提供可能。

非结构化数据一般包括图片、音频、视频、文本信息等。其中,文本数据是金融领域最常见的非结构化数据。而获取文本数据当中的信息,往往需要借助自然语言处理技术。具体流程如下图所示。
image

对于一个句子、一段话,这种短文本而言,分析出其中的主谓宾结构,一般就可以获取知识图谱所需的“实体”与“关系”对象。而处理长文本,则需要通过词频统计,主题模型等更进一步的分析方法,判断出长文本中真正有效的“实体”对象。

2.3 实体、关系的提取


从经过处理的数据中获取有效的“实体”与“关系”是构建知识图谱的关键。在金融领域中,最核心的实体即公司、可交易证券、宏观经济指标等;最有价值的关系,往往与影响公司业绩或影响可交易证券价格的一些信息有关。然而,仅依赖金融领域的先验知识,用传统关联方法将实体进行连接,并不能发挥知识图谱的最大功效。将其他领域有用的“实体”、“关系”关联,可以有效拓展知识图谱边界,获取隐藏信息。

以产业链构建为例,若从公司财务报表和公告信息中直接挖掘,只能找出公司之间财务或股权方面的关联。而如果能提炼公司的主营产品,并利用其它产业产品之间的上下游关系,就可以将分属产业上下游不同层面的公司进行关联,获取更好的产业链结构。

建立知识图谱的另一项重要工具是知识融合,即,将不同来源的知识进行对齐、合并。在自下而上构建知识图谱的过程中,往往会在不同的知识图网中发现表示同一知识的节点。将这两个图网融合,可以避免知识孤岛,让知识链接更加稠密,提升知识的应用价值。

知识融合一般包括“实体”合并、“实体”概念合并、“实体”概念上下位关系合并等。先验信息是知识融合的关键,特别是从已知的结构化数据中得到的“实体”关联关系,可以有效帮助不同的知识图谱进行融合。

例如,将从财务信息挖掘得到的公司财务图谱与从市场价格挖掘得到的证券收益特征图谱进行融合,就可以获得财务数据、研发方向、新产品特性等信息对公司股价的影响路径,实现财务指标图谱的核心 “实体”——公司与证券收益特征图谱的核心“实体”——股票之间的关联。由此可见,相较于透过复杂的文本主题分析进行“实体”关联,利用类似的结构化数据提供的信息可以大大提升知识融合的效率。

2.4 三元组的构建


RDF是目前最为主流的“实体”-“关系”符号语义表示模型。其基本模型为有向标记图,图中每一条边对应一个三元组(主语-谓语-宾语),即前文所提到的“实体”-“关系”-“实体”。而这样一个三元组也对应了一个逻辑表达式或者关于世界的陈述。

在定义RDF三元组信息的同时,也可以通过扩展的数据结构保存三元组中“实体”与“关系”的属性结构。例如,“股票”实体的价格序列,线性相关“关系”的相关系数等。增加三元组的时间戳属性,更可以将知识图谱动态化,描述出不同“实体”间“关系”随时间的演进情况。

2.5 存储三元组信息


目前,主流的关系数据库都可以实现三元组信息的存储(见下图)。

如上图所示,RDF三元组信息分别由关系数据库LFFT_ENTITY_ID,RELATION_ID,RIGHT_ENTITY_ID标识。其中,还保存了有效期与是否为双向的标志,提供了更丰富的信息。

在其他数据表中,通过ENTITY_ID或者RELATION_ID链接,可以查找到该“实体”或者“关系”的更多属性信息。遍历知识图谱,按条件筛选匹配“关系”,从而得到所需“实体”的关联网络是知识图谱的重要应用。这一过程往往要求“实体”或者“关系”都存在属性信息。

除了关系数据库之外,还有很多专门用于存储知识图谱三元组结构的数据库系统,如Neo4j等。受限于关系数据的索引结构,无论是插入、查找还是遍历,通过关系数据库方式存储的知识图谱性能都会受到影响。随着知识图谱规模的逐步扩大,利用专用数据库对知识图谱结构进行存储变得愈发重要。

2.6 知识图谱的使用


使用知识图谱首先需要确定起始的“实体”、“实体”类别,或某些“关系”,并利用它们的属性信息读取出所有满足条件的三元组数据。

以已经读出的信息为起点,遍历与其连接的所有“实体”,根据预先定义的条件剔除不需要的“关系”或“实体”,从而得到第二层的RDF信息。

迭代上述过程,直到数据库中所有符合条件的“实体”和“关系”都已被遍历到。由此,一张全联接的知识图网便形成了,其中也包含了我们所需要了解的相应信息。

上述过程的本质是一个图的遍历过程,因而可以直接应用于产业链结构等关系图的构建。除此之外,将三元组信息向量化,通过机器学习等算法,分析其中包含的信息,也是使用知识图谱的另一种重要方式。

3 知识图谱在金融投资领域的应用


3.1 产业链挖掘


应用知识图谱最为基础的方式,就是通过节点关系将尽可能多的信息整合在一起,并遍历某种关系下的实体集合,进而可视化地展示全景图。在金融投资领域,典型的应用场景就是产业链挖掘。

在本系列第一篇报告《数据挖掘技术框架简介》中,我们详细介绍了棉花产业链挖掘的实例,共分为三步。

1.构建棉花领域的产品和服务网络

首先,通过棉花相关产品和服务之间的关系,例如“棉线是皮棉的下游产品”、“棉花种植是棉花的上游服务”等,可以将棉花领域的商品和服务构建相互关系,如左下图所示。

其次,导入不同产品和服务的概念从属关系,例如“上游包括棉花种子的生产销售,农业采棉技术的服务管理等”、“下游包括棉纱、棉布等商品的生产和销售”,如右下图所示。

最终,得到具有层次信息的棉花领域的产品和服务网络。

需要注意的是,上述概念关系的建立过程中,往往需要掌握相关先验信息,如棉花的上游产业和下游产品分别包括哪些对象。这些先验信息的获取与清洗是能否构建有效知识图谱的关键所在。

2.导入上市公司主营业务产品信息

从结构化数据库中导入上市公司主营业务产品的相关信息,包括报告期、主营业务产品的名称、业务收入、业务收入占比等。其中,上市公司与主营产品为“实体”,主营业务为“关系”,报告期、业务收入及占比为“关系”的属性。

3.将上市公司主营业务产品链接到棉花领域的产品和服务网络

将棉花领域的产品和服务网络中与上市公司主营业务产品网络中相同的“实体”进行链接,即可以确认不同公司在棉花产业链中的上下游位置。例如,将有棉布经营的相关主营业务的公司“实体”与棉花服务中的“棉布经营”链接,而“棉花经营”从属于棉花产业链中的“中游”这一概念,即可得到该公司处于棉花产业链的中游。据此挖掘出的部分产业链如下图所示(仅以上游为例,具体信息可参考本系列第一篇报告)。

通过以上方式,就可以规则化、时序化地构建棉花产业链。“规则化”是指产业链生成过程的构建摒弃了传统人工选择的方式,具有固定的生成规则,便于回溯和更新迭代。“时序化”是指产业链信息会随着时间的变化发生改变。例如,如果某个棉花种植公司主营业务变更为棉花加工,那么它在产业链中的位置就从上游变为中游。在知识图谱中,这种时间序列上的产业链变更,可以通过对实体间的关系加上时间序列属性进行维护。

除了产业链,知识图谱还可以根据不同的关系得到不同的网络信息。例如,股权网络、供应链、热点主题等。实际上,类似的应用在金融领域早有先例。典型的代表是AlphaSense,一家成立于2008年的智能搜索引擎公司。它从文件、新闻和研究报告等碎片化信息中集合所有投资信息,并进行语义分析,整合相关概念、主题、行业等,方便用户搜索、浏览和分析和金融投资相关的重要数据点及整体趋势。

3.2 事件驱动策略


挖掘产业链等信息是知识图谱基本功能的展现。在金融投资领域,更进一步的是构建事件驱动策略。

传统的事件驱动策略主要研究事件对于发生实体的有价证券价格的影响。例如,苹果公司iPhone 5s 推出时,市场评价不佳,公司股价应声下挫。这一类传统策略主要有两个特点:一是人工处理,即iphones 5s产品市场评价与苹果公司股票价格之间的关系,主要通过人工确认;二是只研究直接发生事件的实体的股价表现。而借助知识图谱,则可以实现更为及时、深入的事件驱动策略。

首先,通过“主营业务产品”这一关系将iphone 5s与苹果公司相关联,再通过从属关系将twitter评论与iphone 5s相关联。当twitter评论出现显著的负面情绪时,就可以通过这两层关系快速链接到苹果公司股价,生成投资信号。

其次,通过“主要供应商”这一关系可以将苹果公司链接到富士康。我们发现,富士康的股价在这一事件发生后同样出现大跌,原因就是“产品市场认可度较差”这一事件在供应链网络中的传播。

换句话说,当知识图谱中的某个节点受到冲击时(例如,负面消息),会通过图网络辐射到其他关联实体。因此,通过知识图谱可以将事件驱动策略的标的进一步扩展。同时,如果发生事件的是某个非上市公司,甚至自然人,也可以通过股权等关系链接到相关上市公司。从而在事件驱动策略中纳入许多非金融的信息和更多层的关联结构,大大扩展了策略的适用空间。

下面,我们通过应收账款网络简单展示这类应用的效果。以传统的业绩预警事件为例,我们首先选取了影响相对显著的业绩预增、预减、扭亏、首亏四类事件。以2005/1/1-2018/12/31的业绩预告数据为回测样本,其中剔除了上市未满6个月的新股。

由于业绩变动较大的公司具有一定的行业和市值偏离,因此我们采用上市公司所在行业的20个相近市值公司的平均收益作为比较基准。四类事件在发生后T日至T+20日的平均累计超额收益如下图所示。

由上图可见,业绩预增和业绩扭亏具有显著的正向效果,公告披露后的20天内存在1.3%左右的超额收益。业绩预减和业绩首亏具有显著的负向效果,公告披露后20天的超额收益在-1.0%至-1.5%左右。但是,我们也很容易发现,不论是哪一类事件,公司股价在公告当日的反应最大。之后的20个交易日内,除业绩首亏事件外,其余事件的平均累计超额收益变动并不明显。这一现象表明,在没有内幕消息的前提下,投资者实际上很难获取业绩预增等事件理论上的超额收益。

然而,知识图谱却给我们提供了一种另类的参与此类事件的方式。例如,我们可以构建上市公司之间的应收账款网络,选取披露业绩预告的公司作为关联对象,通过财报附注中的主要应收账款信息链接到主要债权人。直观上,某个公司业绩的预增或预减,都会对它的应付账款产生影响,并传导至它的债权人。因此,相关债权人在业绩预警事件发生后T日-T+20日内的股价应当也会发生同方向的变动。下图给出了这种思路下,与发生业绩预告事件的公司有债务关系的上市公司的累计超额收益。


从上图可以看到,业绩扭亏、业绩预增公司的债权人在公告披露后的7天内,平均超额收益单调上升,至T+7日的值为0.8%、0.4%的,此后才逐渐衰减。

我们进一步以业绩预增事件为例,对比事件公司和债权人公司在公告后的股价变化(见下图)。显然,后者的超额收益更为滞后,股价在公告当日并无明显变化,此后才逐步上涨。但是,我们也应看到,和事件公司相比,债务关联公司的平均超额收益略低。


其中的原因也十分直接。若A公司欠B公司大量应收账款,A公司公告业绩预增事件,很可能会利好B公司应收账款的回收,因此B公司的股价上涨。但是,这种正面信息对B公司产生的影响毕竟只是间接的,其超额收益不如事件发生公司也在情理之中。

上面这个例子表明,借助知识图谱,我们完全可以拓展事件驱动策略的应用范围,从关注事件公司本身转向和它有紧密关联的公司,寻找更为确定的右侧交易机会。

事实上,我们可以根据这种思路,构建一系列基于图网络的事件驱动策略。例如,大股东重大负面事件(如,偷税漏税)在股权网络中的传播,主营业务产品大幅减产在供应链网络中的传播,等等。在海外,此类应用已经成为量化基本面投资(quantamental)的一类主流策略。一个典型的案例是一家名为kensho的互联网公司。它的主要产品为warren问答引擎,专注于寻找事件与资产之间的相关性,从而预测资产价格走势。2017年初,该公司成功预测了特朗普当选后,美元重回涨势,以及科技股的反弹。

3.3 构建知识图谱类因子


我们还可以基于知识图谱构建另类因子,为传统的多因子模型提供额外的信息。例如,德银于2015年采用供应链数据构建了供应链网络相关因子,包括:下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等。经过检验,这些因子都具有较为显著的超额收益。而且,由于包含了关联结构,它们与传统因子都有着很低的相关性,是传统模型的一个有益补充。

3.4 对现有分析框架的改进


知识图谱除了能提高投资者对非结构化信息的应用效率,还能改善现有的分析框架。由于知识图谱刻画了实体之间的关系,因而在预测实体的过程中,哪些是有效信息实际上已被事先确定。与此同时,预测逻辑也随之固定下来。

以行业基本面量化为例。我们与行业研究团队合作,开展了资源品价格预测的研究。其分析框架的构建过程可被简化为以下三步。

1.构建资源品行业知识图谱

首先,行业研究员提供基本面研究框架和参考变量,例如,价格与供需缺口的关系、库存所包含的指标以及各自公布的滞后期,等等。其次,我们根据以上信息,构建出资源品领域的知识图谱。最后,通过对知识图谱主要概念的提取,整合资源品行业的研究框架(如下图所示)。


上图中每条边对应的数字代表有几个资源品存在类似的“关系”表达。考虑到“关系”数量众多,我们仅展示存在不止一个资源品有类似表达的“关系”,即所有数字都大于1。由于不同资源品研究员的关注点和输入信息有差异,因此最终代表资源品研究框架的知识图谱将包含全部“关系”。这样一来,既可以通过其他资源品的分析框架对某个资源品的现有分析框架进行补充,也可以对不同分析框架相冲突的地方进行检验和修正。

我们以有色金属——铜为例,根据上述方法,建立并完善它的基本面研究框架。具体结果如以下两图所示。


image

对于每个资源品,在根据图15建立了它的价格预测框架后,便可以提取所有与其价格相关的“实体”和“关系”,得到最终的可供进一步研究的基础数据。依然以铜为例,提取出的RDF数据如下表所示。

2.构建量化预测框架

为了预测资源品的价格,我们选取了三种较为典型的时间序列模型。

(1) ARIMA模型

ARIMA是时间序列分析中的经典模型。下文将从自动定阶的ARIMA模型得到的预测结果,作为其他预测模型的学术级比较基准。

(2) 序列分解模型

将预测变量分解为趋势、周期、节假日效应、随机项4个部分,对每个部分分别拟合一个多项式,单独预测,最终将4个分项的预测值汇总作为整体预测值。此类方法的典型代表是Facebook于2017年发布的开源数据预测包——“Prophet(先知)”,在预测互联网企业用户数量等领域卓有成效。下文以Prophet作为其他预测模型的工业级比较基准。

(3)因子模型

以上两个模型适用于预测变量有较强趋势性,受其他外生变量影响较小的情况。在经济预测或金融投资的应用中,包含多个变量的VAR模型和因子模型的应用更为广泛。

因子模型的难点在于变量选择和参数估计。如果变量太多,就会造成“维数灾祸”,如多重共线性,从而降低估计的可靠性。变量筛选或降维的主流方法有LASSO、PCA和因子分析等。下文采用LASSO+CV的方式确定预测模型。

3.行业知识图谱+量化预测框架

在第1步中,我们已从行业知识图谱中提取了每个资源品的价格“实体”,并在遍历所有的“关系”后,得到每个品种价格的影响因素(可参见上文铜的示例)。随后,将这些基础信息放入第2步中的3个预测模型。这个过程可由如下的流程图描述。
image
采用每个资源品截止2018年末的所有可得数据进行回测,参数由最近150个数据点确定,并按周度频率更新。因子模型的结果如下表所示。绝大部分品种的价格预测胜率(预测的涨跌方向和实际一致)均在50%以上。其中,动力煤、铜、天然橡胶等品种表现较优,年化收益超过10%。不过,镍的历史数据较短,结果仅供参考。

下表进一步对比了因子模型和ARIMA、Prophet模型的预测效果。从胜率来看,因子模型在绝大多数品种上都表现得更好。


通过上述案例,我们可以看到,知识图谱标准化了不同品种的分析框架和预测过程,并对传统的方法有三点补充和完善。

(1)可以对知识图谱中的任一节点进行预测和分析。例如,要研究铝的库存情况,只需选取与库存有关联“关系”的所有节点作为初始变量集;

(2)可以将知识图谱中的结构信息带入量化模型中。例如,使用主成分分析降维,可以考虑把每个包含关系下的分项变化汇总为一个主成分等;

(3)可以在传统量化模型的基础上叠加行业观点。例如,我们回测过去30周的数据后发现,某个资源品的价格和库存正相关,但知识图谱中保存的行业研究员的观点为负相关。那么,有一种可能性是,库存和价格在近期受到同一个第三方因素的影响,这就促使我们进一步思考和挖掘。

在后续报告中,我们会进一步介绍基于知识图谱的CTA策略。

当然,除了上述应用,知识图谱在金融投资领域还有着极其广泛的空间。例如,通过对多路径的不一致性或“关系”冲突的检验和合并,进行业绩排雷等。

4 总结与讨论


本文作为金融科技(Fintech)和数据挖掘研究系列的第二篇,主要介绍知识图谱的概念、构建方法以及在金融投资领域的应用。

知识图谱是一种直观显示各个实体关联信息的有效数据结构,其构建流程与数据挖掘的基本流程可以一一对应。在金融投资领域,通过知识图谱,我们可以进行产业链的挖掘,建立更为全面深入的事件驱动投资策略,构建知识图谱类因子,改善现有分析框架等。

本文中的应用仅为概述性的展示,我们会在后续的系列报告中详细阐述每一个案例,并根据已构建的知识图谱不断更新和扩展应用场景。

5 风险提示


数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能。

联系人:余浩淼,021-23219883