摩根大通深度报告：另类数据与机器学习算法入门

由qxiao创建，最终由qxiao更新于2022-08-30 09:51 被浏览 155 用户

介绍

发布单位：J.P.Morgan

原标题：《大数据和人工智能战略—机器学习和另类数据投资方法》

发布时间：2017年5月

简介：本报告旨在为机器学习和大数据投资提供一个框架。这包括一个对另类数据类型的概述，以及分析它们的机器学习方法。

其中，另类数据包括个人数据(如社交媒体)、业务流程数据(如商业数据) 交易和机器生成的数据(例如卫星图像数据)。

同时报告我们解释和评估不同的机器学习方法，这些方法是分析大数据的必要工具。这些方法包括监督机器学习:回归、分类;无监督机器学习:聚类、因子分析; 以及深度学习和强化学习方法。

报告的最后一部分是超过500家另类数据和技术供应商的手册，可以作为大数据以及人工智能领域的粗略路线图。

本报告完整，在2017年来说，具有非常领先的意义，但是由于时代所限，在介绍深度学习算法较少，仅限于CNN，而且其在金融领域的应用案例也较少，本报告完整版英文10万字，机器翻译的中文版17万字，我们摘录了报告里面的关键观点及结果，并在本文最后附上英文PDF,以飨读者。

引言

大数据和机器学习“革命”:如今大多数记录和观察都是通过电子方式捕获的连接到互联网的设备。原则上，这允许投资者获得广泛的真实市场相关数据时间。例如，数以百万计商品的在线价格可以用来评估通货膨胀，即访问商店的顾客数量交易可以提供实时的销售估计，卫星成像可以评估农业产量或石油钻井平台的活动。从历史上看，类似的数据只在较低的频率上可用(如每月CPI、每周钻机数、美国农业部作物报告、零售销售报告和季度收益等)。考虑到可用的数据量，一个有经验的量化投资者可以现在，理论上有接近实时的宏观数据或公司特定数据，而传统数据源无法提供这些数据。在实践中，有用的数据是不容易获得的，人们需要购买，组织和分析另类数据集，以便提取可交易信号。大型或非结构化数据集的分析通常使用机器学习。机器学习技术的成功应用需要一定的理论知识和大量的实践经验。

数据集和方法:大数据投资方法有两个主要组成部分:收购和理解数据，并使用适当的技术和方法来分析这些数据。新的数据集经常是与传统数据集(如每日股票价格)相比，数据集的容量、速度和可变性更大。另类数据集包括个人生成的数据(社交媒体帖子、产品评论、搜索趋势等)，生成的数据由业务流程(公司尾气数据、商业交易、信用卡数据等)和数据生成传感器(卫星图像数据、行人和车辆流量、船舶位置等)。在大多数情况下，这些数据集需要一定程度的分析才能在交易策略中使用。我们的目标是为不同类型的数据提供一个路线图，并对其进行评估不同资产类别的相关性，以及不同投资风格的相关性(例如宏观、股票多/空、等等)。分析大数据集和另类数据集的方法包括传统统计方法和机器学习方法。机器学习技术包括监督学习(回归、分类)、无监督学习(因子) 分析、聚类)，以及经常用于分析的深度和强化学习新技术非结构化数据，并在识别结构化数据中的数据模式方面显示出前景。在本报告中，我们提供理论和这些机器学习方法的实际例子，并评估其有效性。

对大数据和人工智能的恐惧:虽然许多传统投资者对大数据和人工智能并没有很好的理解我们想要指出的是，这些都不是新概念。在有限的基础上，许多投资者已经在处理另类数据集和某种形式的机器学习。例如，沃尔玛的创始人山姆·沃尔顿，在20世纪50年代用飞机飞过并数停车的汽车评估房地产投资有很多。目前卫星成像的广泛应用在技术上更为先进，可扩展和广泛可用的扩展相同的想法。机器学习方法通常是well-的简单扩展已知的统计方法。监督学习方法的目的是建立两个数据集之间的关系，并使用其中一个数据集来预测其他。这些方法通常就像为了适应变化而改进的回归模型一样简单市场机制、数据异常值和相关变量。无监督学习方法试图理解的结构并确定其背后的主要驱动因子。这些模型通常与众所周知的统计方法密切相关，例如作为主成分分析。然而，两者之间的简单回归有显著差异金融时间序列和大数据，机器学习框架。大数据需要新的分析技能基础设施，以获得可交易的信号。基于机器学习和大数据的策略也需要市场直觉，对数据背后的经济驱动因子的理解，以及设计可交易策略的经验。

大数据和机器学习将如何改变投资格局?我们认为这种变化将是深远的。作为越来越多的投资者采用另类数据集，市场将开始更快地做出反应，并将越来越多地预测传统或 “旧的”数据来源(如季度企业收益、低频宏观经济数据等)。这给定量分析带来了优势管理者和那些愿意采用和学习新的数据集和方法的人。最终，“旧的”数据集将失去最多预测价值和捕捉“大数据”的新数据集将日益标准化。这将是一个持续的过程努力发现新的更高频率的数据集和完善/补充旧的。机器学习技术将成为这是量化投资者的标准工具，或许也适用于一些基本面投资者。系统性策略，如风险溢价、趋势追随者、股票多空量化基金等，将越来越多地采用机器学习工具和方法。的 “大数据生态系统”包括专门收集、汇总和销售新数据集的公司，以及这两方面的研究团队评估数据的买方和卖方。随着大数据生态系统的发展，具有高夏普比率的数据集发出了信号 (作为独立基金可行)将会消失。大量的大数据信号将无法作为独立的策略，但在定量投资组合中仍然非常有价值。

大数据和机器学习的潜在陷阱:向大数据框架的过渡不会没有挫折。某些类型的数据可能会进入死胡同——不包含alpha的数据集，包含太少的信号投资能力，迅速衰退，或者只是太贵而无法购买。经理们可能会在不必要的基础设施，例如，构建复杂的模型和架构，不能保证边际性能改进。机器学习算法不能完全取代人类的直觉。复杂的模型，如果不是恰当的引导，可以过度适应或发现虚假的关系和模式。人才将带来另一个风险来源——雇佣缺乏特定金融专业知识或金融直觉的数据科学家可能不会带来理想的投资结果或导致文化冲突。在金融领域实施大数据和机器学习，更重要的是理解经济背后的数据和信号，而不是能够开发复杂的技术解决方案。许多大数据和人工智能这些概念听起来似乎是合理的，但并不会带来可行的交易策略。

人类和机器的角色:我们经常被问到的一个问题是，人类和机器各自的角色是什么大数据/人工智能“革命”后，金融行业的机器。首先我们注意到，对于短线交易，比如高位频率做市，人类已经发挥了非常小的作用。从中期投资的角度来看，机器是变得越来越相关。机器能够快速分析新闻推送和推文，处理声明，抓取网站，并在这些即时交易。这些策略已经侵蚀了基本面分析师、股票多空经理和宏观投资者。从长远来看，机器可能不会能够与强大的宏观和基本的人类投资者竞争。人工智能的发展现阶段智力仍然有限。例如，机器仍然很难通过Winograd的测试．机器可能不会擅长评估制度变化(市场转折点)和涉及解释更复杂的预测吗政治家和央行行长等人的反应，了解客户定位，或预料到会拥挤。

不管最终投资前景的时间和形状如何，我们相信分析师、投资组合经理、交易员和首席信息官最终将不得不熟悉大数据和机器学习方法投资。这既适用于基本面投资者，也适用于定量投资者，并适用于所有资产类别。

在本报告的第一章，我们提供了一个初步的框架，以理解大数据和机器学习方法。报告的第二章根据大数据集和另类数据集的类型和类型对它们进行分类不同投资风格的相关性。第三章阐述了个体机器学习技术，它们的实现和实例。第四章是一本超过500个另类数据提供商的手册它可以作为大数据和机器学习领域的粗略路线图。最后，在附录中，我们提供计算机代码和机器学习库，外的理论考虑，参考相关文学和术语汇编。

图1:导致大数据革命的因子{w:100}{w:100} 数据的特点{w:100}{w:100} 图3:大/另类数据源的分类{w:100}{w:100} 图4:另类数据集的属性{w:100}{w:100} 图5:另类数据集的信息内容{w:100}{w:100}