机器学习时代的回测规程_论文_HIT58


(mmforever) #1

摘要

机器学习提供了一套强大的工具,为投资管理带来了可观的前景。与大多数金融量化应用一样,误用这些技术的危险可能会导致失望。一个关键的限制是数据可用性。机器学习的许多早期成功都起源于物理和生物科学,在这些科学中可以获得大量的数据。机器学习应用程序通常需要的数据远远多于金融领域的可用数据,这在长期投资中尤其值得关注。因此,在应用工具之前选择正确的应用非常重要。此外,资本市场反映了人的行为,这可能受到他人行为和以往研究结果的影响。在许多方面,影响机器学习的挑战仅仅是研究人员在量化金融领域一直面临的长期问题的延续。虽然投资者确实需要谨慎,但比起过去量化方法的应用,这些新工具提供了许多潜在的金融应用。在本文中,作者开发了一个研究协议,既适用于机器学习技术的应用,也适用于一般的定量金融。

介绍

数据挖掘是对可复制模式的搜索,通常是在大数据集中,我们可以从中获得好处。在实证金融中,“数据挖掘”具有贬义的内涵。我们更倾向于将数据挖掘视为金融研究中不可避免的元素。我们都是数据挖掘者,即使只是生活在塑造我们信仰的特定历史中。过去,数据收集成本高昂,计算资源有限。因此,研究人员不得不把精力集中在最有意义的假设上。如今,数据和计算资源都很便宜,在机器学习时代,研究人员甚至不再需要指定一个假设——算法应该能解决它。

今天,研究人员有幸拥有各种各样的统计工具,其中机器学习及其所代表的一系列技术是一个突出而有价值的工具。事实上,机器学习已经提高了我们在物理和生物科学方面的知识,并且已经成功地应用到消费者行为分析。所有这些应用程序都受益于大量数据。有了大数据,模式将纯粹是偶然出现的。机器学习的一大优点是,它通过不断交叉验证发现的模式来避免过度拟合。同样,这种优势在存在大量数据的情况下表现良好。

在投资金融领域,除了tick数据外,数据的范围要有限得多。事实上,大多数旨在为被动基准提供超额回报的基于股票的策略都依赖于月度和季度数据。在这种情况下,交叉验证并不能减轻维度的诅咒。正如一位著名的研究人员对我们强调的:

如果你试图用50年的数据来预测收益率(如果你有数百万年的数据,这可能没问题),那么使用k-fold交叉验证来调试10个不同的超参数是一个糟糕的主意。总是有必要在你试图解决的问题上强加结构,哪怕是随意的结构。

机器学习和其他统计工具在过去是不实际的,对于成功的交易策略的发展,尤其是在高频交易中,具有相当大的希望。它们在风险管理等其他应用中也可能有很大的前景。不过,我们在使用这些工具时需要小心。实际上,我们认为,鉴于我们在金融领域使用的标准数据的有限性,我们在机器学习时代面临的许多挑战与我们长期以来在量化金融领域普遍面临的问题非常相似。我们希望避免投资策略的回测的过度拟合。我们需要一个强大的环境来最大限度地发现新的(真的)策略。

我们认为现在是时候退一步,重新审视我们的研究方法了。许多人过去曾警告过数据挖掘的危险性(例如,Leamer,1978;Lo and MacKinlay,1990;Markowitz and Xu,1994),但如今这个问题更加严重。在计算资源、数据和统计专业知识方面,竞争环境已经趋于平衡。因此,新思想冒着很快变得非常拥挤的风险。事实上,仅仅一个异常情况的公布,就很可能开始了这个机会被套利掉的过程。

本文提出了一个金融实证研究的规程。研究规程在其他科学领域很流行,其目的是尽量减少那些可能导致错误发现的明显问题。我们的规程既适用于传统的统计方法,也适用于现代的机器学习方法。

怎么来的?

早期的量化投资带来了许多令人印象深刻的成功。对计算和数据的严格限制导致研究的侧重点狭窄。此外,许多市场客户对定量方法持怀疑态度。因此,鉴于在某些策略上部署的资本有限,拥挤的风险是很小的。但今天的比赛环境已经改变了。现在几乎所有人都采用定量方法,即使是主观经理和客户对定量方法也不那么反感。

转型步伐是惊人的。以20世纪80年代末90年代初世界上速度最快的超级计算机克雷2号为例(Bookman,2017)。它重达5500磅,经通胀调整后,2019年的成本超过3000万美元。克雷2号(当时)每秒进行了19亿次的操作(Anthony,2012年)。今天的iPhone Xs每秒能够进行5万亿次的操作,重量只有6盎司。1990年,一个千兆字节的存储成本为10000美元,而现在只需一分钱。此外,一系列令人惊讶的数据和应用软件都是免费的,或者说几乎是免费的。数据挖掘行业的进入壁垒一度很高,但现在可以忽略不计。

纯粹的计算能力和庞大的数据只是故事的一部分。我们见证了统计学、数学和计算机科学的许多进步,特别是在机器学习和人工智能领域。此外,开源软件的可用性也改变了游戏规则:不再需要投资(或创建)昂贵的软件。从本质上说,任何人都可以下载软件和数据,并有可能访问大量云计算来加入数据挖掘游戏。

鉴于进入数据挖掘业务的成本较低,投资者需要警惕。考虑多空股票策略,其结果如图表1所示。这不是一个假的展品。它代表了1963年至1988年在纽约证交所股票上制定的市场中性策略,然后在1989年至2015年的样本外结果更强大。夏普比率是令人印象深刻。50年的跨度远远超过大多数回测。而回测业绩是具有经济意义的,每年产生近6%的阿尔法,并具有统计上显著。

更好的是,该策略有五个非常吸引人的实际特点。首先,它依赖于一个贯穿始终的方法论。第二,最近一段时间的业绩没有下滑,说明策略并不拥挤。第三,该策略在金融危机期间表现良好,增长近50%。第四,该策略与任何知名因素(如价值、规模和动量)或整个市场没有统计上的显著相关性。第五,该策略的换手率极低,每年不足10%,因此交易成本应该可以忽略不计。

![](data:image/svg+xml;utf8,)

这个策略似乎太好了,不可能是真的。是的。这种数据挖掘策略基于公司股票代码中的字母形成投资组合。例如,A(1)-B(1)代表做多股票代码中以“A”为第一个字母的所有股票,而做空股票代码中以“B”为第一个字母的所有股票,两个投资组合中等权配置股票。图表1中的策略考虑了股票代码前三个字母的所有组合,表示为S(3)-U(3)。字母表中有26个字母,股票代码中有3个可能的字母上,并且有多空两个配对,这可以带来数千种组合。在搜索所有潜在的组合时,找到一个看起来不错的策略的机会是相当高的!

当然,一种毫无根据的数据挖掘策略不太可能愚弄投资者。我们看不到出现提供“阿尔法投注”(alpha bets)的ETF,每个ETF都专注于字母表中的一个字母。一个没有经济基础的策略可能在过去的运气中起作用,任何未来的成功都是同样随机的运气。

图表1中详细描述的策略看似荒谬,但在数据挖掘和机器学习方面都有重要的经验教训。首先,S(3)-U(3)策略是由蛮力而不是机器学习发现的。机器学习实现将仔细地交叉验证数据,方法是在数据的一部分上训练算法,然后在数据的另一部分上验证算法。然而,在一个简单的实施中,如图表1所示,在样本的第一个25年确定S(3)-U(3)策略时,它将在第二个25年被“验证”。换言之,错误的策略可能在交叉验证样本中起作用。在这种情况下,交叉验证不是随机的,因此,可以找到单个历史路径。

第二个教训是数据非常有限。今天,我们有大约55年的高质量股票数据。大约700个月的观察,覆盖我们希望考虑的每一个股票的许多度量。对于大多数机器学习应用程序来说,这个样本太小了;对于深度学习这样的高级方法来说,它小到不可能。第三,我们有一个很强的前提,那就是这个策略是错误的:如果成功了,那仅仅是因为运气。机器学习,特别是无监督的机器学习,并不强加经济原则。如果成功了,那只是在过去成功,不一定在将来成功。

当数据有限时,经济基础变得更加重要。Chordia、Goyal和Saretto(CGS)(2017)研究了210万种基于股票的交易策略,这些策略使用基于Compustat数据的不同指标组合。CGS通过惩罚每一个发现(即通过增加显著性的障碍)来仔细考虑数据挖掘。他们确定了17种“在统计和经济门槛下生存”的策略。

其中一种策略被标记为(dltis pstkr)/mrc4。这种策略将股票分类如下:分子是长期债务发行减去优先股/优先股可赎回。分母是未来四年的最低租金承诺!统计上的显著性令人印象深刻,几乎与欧洲核子研究中心(CERN)的研究人员在通过五百万次观察发现难以捉摸的希格斯玻色子时所建立的高障碍相吻合(ATLAS Collaboration,2012,CMS Collaboration,2012)。CGS的所有17个最佳策略都有一个类似的独特结构,在我们的观点和作者的观点中,尽管它们是基于财务指标的,但它们几乎没有或根本没有经济基础。

我们关于在回测中使用机器学习的信息是谨慎的,并且符合López de Prado(2018)的警告。机器学习技术已经被广泛应用于从检测消费者偏好到自动驾驶汽车等所有涉及大数据的场合。大量的数据允许多层交叉验证,从而将过度拟合的风险降至最低。我们在金融业没那么幸运。我们的数据有限。我们不能在粒子加速器上翻转4TeV开关,从样本数据中产生万亿个新的(非模拟的)数据。但我们幸运的是,金融理论能够帮助我们过滤出缺乏事前经济基础的想法。

我们也要记住,我们投资的不是信号或数据;我们投资的是金融资产,这些资产代表着企业、债务、不动产或大宗商品的部分所有权。量化社区有时如此专注于它的模型,以至于我们似乎忘记了这些模型是真实世界的粗略近似,并且不可能反映实际上构成我们的投资组合的所有细微差别。噪音的大小可能使信号相形见绌。金融是一个由人类组成的世界,有情感、羊群行为和短暂的记忆。市场异象是量化社区和我们的客户预期利润的主要来源,但它们并非一成不变的,它们随着时间的推移而变化,往往很容易被套利掉。我们忽视了我们的模型和现实世界之间的巨大鸿沟。

胜利者的诅咒

大多数量化社区都会认识到模型开发中的许多陷阱。在“击败市场”和在竞争中超越方面存在相当大的激励。无数的模型被试过。与我们使用股票代码符号的例子相比,大多数研究探索了大多数人认为合理的变量。这些模型中的绝大多数不起作用,通常被丢弃。但其中一些似乎确实有效。在那些看起来确实有效的模型中,有多少是真的有效的,还有多少只是过度拟合的结果?

量化投资经理犯错的机会很多。最常见的错误是被数据引诱,认为一个模型比它实际更好。这个错误有其行为学基础。研究人员希望他们的模型能够工作。他们寻求证据来支持他们的假设以及随之而来的所有回报。他们相信,如果他们努力工作,他们会找到金票。这就引出了一类“选择问题”,在这个问题中,使其得以通过的模型很可能是一个有偏见的选择过程的结果。

结果强的模型将被测试、修改和重新测试,而结果差的模型将很快被删除。这就产生了两个问题。一是一些好的模型在测试期间会失败,可能是由于数据集特有的原因,模型会被遗忘。另一个问题是,研究人员寻找一个叙述来证明一个在测试期间运行良好的坏模型是正确的,同样可能是因为与模型的未来效能无关的原因。这些结果分别是假阴性和假阳性。甚至比假阳性更常见的是夸大的阳性,这种结果似乎比未来可能出现的情况更为强烈,甚至强烈地多。

在其他科学领域,这种现象有时被称为“赢家的诅咒”,这与拍卖理论中的赢家诅咒不同。最先公布临床试验结果的研究人员很可能面临以下情况。一旦试验被复制,三种不同的结果中的一种可能发生。首先(不幸的是,最不常见的结果),试验经得起许多复制试验,即使有不同的样本、不同的时间范围和其他样本外试验,并且在最初发表后继续工作,大体上和在回测中一样。其次,在复制之后,效果远远小于最初的发现(例如,如果排除了小市值股票,或者在样本外复制)。第三个结果是最糟糕的:没有任何效果,研究结果最终是不可信的。一旦发布,模型很少像在回测中那样工作。

我们能避开赢家的诅咒吗?不会完全避免,但有了强大的研究文化,就有可能减轻赢家诅咒的伤害。

避免假阳性:一个规程

投资管理的目标是在实时交易中做出的业绩和向客户承诺的一样。研究人员希望尽量减少假阳性,但不会错过太多好的策略。规程在科学实验和实际应用中都有广泛的应用。例如,现在要求每个飞行员在起飞前都要经过一个规程(有时称为检查表),近年来,航空公司的安全性大大提高。更普遍地说,规程的使用已经被证明可以提高性能标准,并在任务变得越来越复杂时防止失败(例如,Gawande,2009)。我们相信,在金融领域的定量研究中使用规程应该变得更加严格,特别是基于机器学习的技术,随着计算能力和过程复杂性的增长。我们的目标是在回测的背景下改善投资者的结果。

我们建议的规程中的许多项目并不新鲜(例如,López de Prado,2018年),但在这个数据科学和机器学习的现代时代,我们认为值得具体说明量化金融的最佳研究实践。

类别1:研究动机

(a)建立先验经济基础。

实证研究往往为理论的发展提供基础。考虑实验物理和理论物理之间的关系。实验物理的研究者测量(产生数据)并测试现有的理论。理论物理学家经常利用实验物理的结果来发展更好的模型。这一过程符合科学方法的概念。提出了一个假设,实证检验试图找到与该假设不一致的证据,即所谓的可证伪性。

这一假设提供了一个减少过度拟合机会的原则。重要的是,假设需要有一个逻辑基础。例如,图1中的“alpha押注”多空交易策略没有理论基础,更不用说前面的假设了。Bem(2011)在一篇顶级学术期刊上发表了一篇研究报告,通过10年以上的1000名受试者的实验,“支持”了超感官知觉的存在。结果是侥幸的几率是740亿比1。事实上他们只是侥幸:测试没有被成功复制。

在没有事前经济假设的情况下进行实证调查,研究者会引出未来的问题。首先,在没有事前经济假设的情况下考虑模型或变量是低效的(例如通过第四年到期的租金来衡量预测值)。第二,无论结果如何,没有模型的经济基础,研究者最大化了当模型进入实盘交易时模型将不起作用的可能性。这是机器学习的缺点之一。

我们的一个建议是仔细地构造机器学习问题,使输入遵循合理的假设。这里有一个简单的例子。假设研究人员设定了一个目标,即利用Compustat和I/B/E/S中的所有自变量,找到一个在风险调整基础上表现出色的多空股票组合。这是自找麻烦。在没有特定假设的情况下,即使在许多机器学习应用中进行了广泛的交叉验证,假阳性的概率也很高。

b)提防后验经济基础。

在数据挖掘发生后,创建一个经济故事来证明研究结果合理也几乎总是一个错误。这个故事往往是脆弱的,如果数据挖掘产生了相反的结果,那么事后的故事很可能恰恰相反。一个经济基础首先应该存在,并且一些经验测试应该被设计来测试这个基础是多么的有弹性。任何怀疑这个假设是在看了数据之后提出的,都是一个明显的危险信号。

另一个微妙的观点是:在医学等其他学科中,研究人员往往没有预先指定的理论,而数据探索对于未来临床试验的形成至关重要。这些试验为研究者提供了真正的样本外数据。在金融和经济领域,我们没有足够的资源来进行大规模的样本外测试。因此,将这种探索方法应用于我们的领域是危险的。我们可能不会危害客户的健康,但我们会危害他们的财富。当涉及到机器学习方法时,这一点尤其重要,机器学习方法是为更多数据丰富的学科而开发的。

类别2:多重检验和统计方法

a) 跟踪所尝试的内容。

给定20个随机选择的策略,其中一个可能纯粹是偶然地超过2倍标准差的阈值(2.0或以上的t统计量)。因此,如果测试多个策略,2.0的t统计量就不是一个有意义的基准。跟踪尝试的策略数量是至关重要的,同时衡量它们之间的相关性也是关键的(Harvey,2017年,López de Prado,2018年)。对于相对不相关的策略,在阈值方面会受到更大的惩罚。例如,如果测试的20个策略具有接近1.0的相关性,那么这个过程相当于只尝试一个策略。

b) 跟踪变量的组合。

假设研究者从20个变量开始,并进行一些相互作用的实验,例如(变量1 x变量2)和(变量1 x变量3)。这种单一的交互不仅转化为22个测试(最初的20个,加上两个额外的交互),而是转化为190个可能的交互。任何宣称的显著性都应该考虑到所有的相互作用

c) 小心平行宇宙的问题。

假设一个研究者发展了一个经济假设并对模型进行了一次检验,即研究者预先决定了数据、变量、标度和检验类型。考虑到单次测试,研究者认为2倍标准差规则是合适的。但也许不是。想想在20个不同的平行宇宙中。在每一个模型中,研究者选择一个不同的模型,该模型基于相同的历史。在每一个实验中,研究者都进行一次测试。其中一个有用。2倍标准差显著吗?可能不显著。

另一种思考的方法是假设(在一个宇宙中)研究人员编制了一个20个变量的列表来测试预测能力。第一个“有效”,研究人员停下来声称他们做了一个测试。是的,但结果可能只是运气好。想想另一个拥有相同20个变量的研究员,他们按照不同的顺序进行测试,只有最后一个变量“起作用”。在这种情况下,2倍标准差的发现将被丢弃,因为2倍标准差的阈值对于20个不同的测试来说太低了。

类别3:样本选择和数据

a) 预先确定测试样本。

训练样本需要提前声明。研究开始后,样本不应改变。例如,假设样本从1970年开始,模型“工作”,但如果样本从1960年开始,模型“不工作”。一个更令人震惊的例子是删除全球金融危机数据、科技泡沫或1987年市场崩盘,因为它们损害了模型的预测能力。研究人员不能通过按摩数据来使模型“工作”

b) 确保数据质量。

有缺陷的数据会使研究人员误入歧途。对数据的任何统计分析都只能与输入数据的质量一样好,特别是在某些试图捕获非线性的机器学习应用程序中。非线性可能只是一个糟糕的数据点。

垃圾进,垃圾出,这个想法并不新鲜。在过去,研究人员会直接“盯着”较小的数据集,寻找异常观测。考虑到当今数据集的规模,人类的眼球是不够用的。在开发投资模型时,在使用机器学习技术之前清理数据是至关重要的。有趣的是,已经开发了一些有价值的数据科学工具来检查数据的完整性。这些都需要作为第一步来应用。

c) 记录数据转换中的选择。

对输入数据的操作,例如波动率缩放或标准化,是一种选择,类似于尝试额外的变量。这些选择需要记录在案,最好提前决定。此外,结果需要对转换中的微小变化具有鲁棒性。例如,给定10个不同的波动率标度选择,如果研究人员选择的是表现最好的,这是一个警告。

d) 不要任意排除异常值。

根据定义,异常值是对模型有影响的观测值。包含或排除有影响的观察结果可以使模型成功或失败。理想情况下,在对模型进行估计之前,排除异常值需要一个可靠的经济案例。一般来说,不应删除任何有影响的观测值。假设观测是基于有效数据的,那么模型应该解释所有数据,而不仅仅是选择的观测值。

e) 在构造模型之前选择Winsorization级别。

Winsorization与数据排除相关。Winsorized数据在某个阈值处被截断(例如,将异常值截断为1%或2%的尾部),而不是被删除。Winsorization是一个有用的工具,因为异常值可以对任何模型产生巨大的影响。但是,在构建模型之前,应该决定是否选择winsorize,以及在哪个级别。一个明显错误的研究过程的迹象是,该模型在5%的winsoration级别上“工作”,但在1%时失败,然后选择5%的级别。

类别4:交叉验证

a) 承认样本外并不是真正的样本外。

研究人员已经经历过样本外,因此了解历史,了解市场何时涨跌,并将主要变量与过去的经验联系起来。因此,不存在真实的样本外数据;唯一真实的样本外是真实交易经验。

一个更好的样本外应用是在新发现的历史数据上;例如,一些研究人员试图将美国基本面数据的历史数据库恢复到20世纪20年代。可以合理地假设这些数据没有被挖掘,因为这些数据以前不是以机器可阅读的形式提供的。但要小心。尽管这些数据以前没有,但消息灵通的研究人员知道历史是如何发展的,以及宏观经济事件如何与市场走势相关。对于那些深谙市场历史的人来说,这些数据是他们自身经验的样本内和形成了他们的先前假设。即使对那些不太博学的人来说,今天的传统智慧也是由过去的事件所决定的。

与深度的历史数据一样,将模型应用于不同的环境是一个好主意,但应该谨慎行事,因为各国之间存在相关性。例如,一个数据挖掘(和潜在的假)异常,在美国市场的某个样本上有效,也可能在加拿大或英国在同一时间跨度内有效,鉴于这些市场之间的相关性。

b) 了解迭代样本外不是样本外。

假设一个模型在样本内成功,但在样本外失败。研究人员观察到,这个模型失败的原因是特殊的。研究人员修改了初始模型,使其在样本内和样本外都能工作。这不再是样本外测试。它过度优化了。

c) 不要忽视交易成本和费用。

几乎所有发表在金融学术期刊上的投资研究都忽略了交易成本。即使用适中的交易成本,许多已发表的异常现象的统计“显著性”也基本消失。对历史数据的任何研究都需要考虑到交易成本,更普遍的是,在样本内和样本外分析中都要考虑到实施的不足(Arnott,2006)。

第5类:模型动力学

a) 注意结构变化。

某些机器应用程序具有适应时间变化的能力。在经济应用中,存在结构变化或非平稳性。这种担心在物理和生物科学中基本上是不相关的。在金融领域,我们不是在处理物理常数;我们是在处理人类,以及不断变化的偏好和规范。再一次,可用数据的数量是有限的,过度拟合随时间变化的动态关系的风险很高。

b) 承认海森堡不确定性原则和过度拥挤。

在物理学中,海森堡不确定原理指出,我们不能同时精确地知道一个粒子的位置和动量。我们对一个特征的了解越准确,对另一个特征的了解就越不准确。类似的原则也适用于金融业。当我们从过去的数据研究转向研究的实际应用时,市场效率并不是一成不变的。过去的交叉验证关系似乎很强大,其原因不再适用,或可能仅仅因为我们现在意识到它们,并以此为基础进行交易而消失。

事实上,仅仅是研究和改进一个模型的行为就增加了我们对模型有效性的预期与模型的真正潜在有效性之间的不匹配,也就是说,在我们通过我们自己的集体交易实时投资资产、移动资产价格和缩小模型的有效性之前。

c) 不要调整模型。

假设模型正在运行,但没有达到预期的效果。这样的情况应该不奇怪,因为模型的回测在某种程度上可能过度拟合了。调整模型可能会很有诱惑力,特别是作为一种手段来改进它在最近的样本数据中的拟合度。虽然这些修改是对失败的自然反应,但我们应该充分意识到,它们通常会导致模型的进一步过度拟合,并可能导致更糟糕的实时交易性能。

第6类:模型复杂性

a) 小心维度的诅咒。

多维性不利于机器学习应用的可行性,其原因与数据的局限性有关。每一条新的信息都增加了维度,需要更多的数据。回顾Chordia、Goyal和Saretto(2017)的研究,他们基于Compustat数据研究了210万个股票模型。模型的数量级比资产的数量级还要多。有这么多的模型,有些在样本内会很好地工作。

考虑一个模型来预测股票价格的横截面。一个值得探讨的合理变量是过去的股价(动量),但许多其他变量,如成交量、尾随波动率、买卖价差和期权偏度,都可以考虑。随着每个可能的预测变量的添加,需要更多的数据,但历史是有限的,不能创建或模拟新的数据

宏观经济分析提供了另一个例子。虽然大多数人认为某些经济状态变量是市场行为和预期回报的重要驱动力,但通常每月或每季度提供的宏观经济数据对大多数机器学习应用程序来说基本上是越位的。1960年以后,季度的观测结果仅仅多于200次,月度观测不足700次。

尽管每个时间序列的历史观测数据数量有限,但仍有大量的宏观经济变量可用。如果我们选择一个或两个要分析的对象,我们将创建一个不明显的数据挖掘问题,特别是考虑到我们已经经历了选择的样本外周期。

b) 追求简单化和正则化。

鉴于数据的局限性,通过对数据施加结构来进行正则化是很重要的。正则化是机器学习的重要组成部分。机器学习模型可能决定线性回归是最好的模型。但是,如果一个更精细的机器学习模型胜过线性回归模型,那么在转换到一个更复杂的模型之前,它最好以经济上显著地程度胜过。

一个简单的类比是Y对X的线性回归模型,在模型中加入更高的X次方几乎总是可以改进样本拟合模型。在样本外测试中,X次方较高的模型往往表现不佳。

目前的机器学习工具通过广泛使用交叉验证来最小化样本内的过度拟合。然而,这些工具可能会增加复杂性(潜在地非直观的),这导致真实的样品外交易时令人失望的性能。复杂性越大,对非直观关系的依赖性越大,回测和实际交易结果之间的滑动可能越大。

c) 寻求可解释的机器学习。

在任何机器学习应用程序的框架下进行研究都是很重要的。不能是黑匣子。投资经理应该知道,任何基于机器学习的交易系统都会带来什么。事实上,计算机科学中一个有趣的新分支关注于“可解释分类”和“可解释政策设计”(例如,Wang等人,2016)。

第7类:研究文化

a) 建立奖励质量的研究文化。

投资行业会奖励那些产生成功回测结果的研究。如果我们在实际资产管理中做到这一点,我们创造了一种有毒的文化,它将激励数据的破解,产生一个看似好的策略。研究人员应该因为好科学而不是好结果而得到奖励。一个健康的文化也会让人们建立这样的预期,大多数实验都无法发现积极的结果。管理层和研究人员都必须有这种共同的期望。

b) 小心委托研究。

没有人能完成每一个可能产生有趣结果的测试,所以研究人员经常会委派。委托的研究需要仔细监督。研究助理有一个动机,通过展示支持主管假设的结果来取悦他们的主管。这种激励可以导致不故一切的数据挖掘活动,当应用于实时数据时,可能会导致失败。

结论

前所未有的计算能力、免费软件、广泛可用的数据以及科学方法的进步,为我们提供了前所未有的金融量化研究机会。鉴于这些前所未有的能力,我们认为,退一步反思投资行业的研究过程是有益的。认为在机器学习时代我们不再需要经济模型是幼稚的。鉴于数据的数量(和质量)在金融领域相对有限,机器学习应用面临着许多量化金融研究人员数十年来一直在努力解决的相同问题。

在本文中,我们开发了一个用于投资策略回溯测试的研究规程。该列表适用于从投资组合分类到机器学习的投资策略研究中使用的大多数研究工具。我们的推荐和反对项目清单很长,但并不详尽。

重要的是,我们的目标不是消除所有的假阳性。事实上,这很容易——只要拒绝每一个策略。我们面临的一个重要挑战是满足这样的双重目标:既要最小化错误的策略,又不能同时错过太多好的策略。这种权衡的优化是正在进行的研究的主题(见Harvey和Liu,2018)。

读第一遍,我们的观察可能显得微不足道和显而易见。重要的是,我们的目标不是批评量化投资。我们的目标是鼓励谦卑,承认我们很容易欺骗自己,以为自己找到了“圣杯”。傲慢是我们的敌人。规程是一个简单的步骤。规程可以改善结果,无论是在机器车间、飞机驾驶舱、医院还是投资经理。对于投资经理来说,我们假定的目标是在实际交易中创造出符合或超出预期的最佳机会的投资过程。采用这一流程对客户有利,也有利于投资经理的声誉。


本文为原论文的中文翻译。本文仅用于交流学习使用,不得用于商业用途。如对相关著作人造成侵害,请立即联系译者及时删除。

原文链接: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3275654


欢迎读者阅读以下相关文章:

雷闻:五大对冲基金评人工智能——对冲基金文章翻译计划032​zhuanlan.zhihu.com图标雷闻:解码AI在金融服务中的角色_Winton_对冲基金文章翻译计划034​zhuanlan.zhihu.com图标雷闻:机器学习_Graham Capital_HIT51​zhuanlan.zhihu.com图标