原文章来自Winton元盛网站,本文为原文章的中文翻译。本文仅用于交流学习使用,不得用于商业用途。如对相关著作人造成侵害,请立即联系译者及时删除。
原文链接:Experiment and Observation in Quantitative Investment Management | Winton
我们评估了不同的交易策略最适合哪些方法,并解释了为什么稳健的研究过程对元盛的方法至关重要。
定量投资管理类似于自然科学,它试图通过对数据的实证分析来理解现象。研究人员通常使用为科学分析而开发的技术来预测市场动向并创建新的交易策略。
实验科学与观察科学
对于定量投资管理来说,科学过程的一个重要方面是区分实验性调查和观察性调查。实验可以重复多次,以生成具有可比结果的大数据集。举一个物理学的例子:一个粒子加速器把质子粉碎在一起,看看希格斯粒子从碎片中产生的频率。如果需要更多的数据来更精确地测量希格斯产生的可能性,这个过程可以重复(预算允许的情况),直到达到所需的精度水平。这可能会产生数十亿或万亿个数据点。
将这种实验方法与天文学家研究黑洞碰撞产生的引力波的方法进行对比。天文学家检查尽可能多的实际碰撞,并对产生的波的精确细节进行理论分析。没有办法创造出大量可比的黑洞对,让它们运动起来,看看会发生什么。此外,黑洞的相对稀缺性使得选择的集合很可能不是一个代表性的样本,因此包含了偏差。在这种观测方法中,天文学家必须以他们发现的宇宙为基础,试图纠正他们数据中的偏差,并从现有的信息中得出结论。
然而,实验和观察并没有严格的区别,而是连续尺度上的两个方向。越有可能控制和重复创建相关数据的过程,就越有可能向着实验的方向。往另一个方向发展,数据集变得更小,更容易产生各种形式的偏差,信号往往更难与噪声区分开来。
实验研究和观察研究的区别延伸到金融领域。例如,可以通过将执行算法应用于新的交易来进行实验测试。然而,一个关于股市崩盘的理论只能通过观察来研究,因为唯一的数据来自已经发生的崩盘,每种情况下的情况都有很大的不同。无法按需生成更多崩盘!
金融学中发现的数据集在大小上与科学中的数据集相似,如下图所示。一个极端是,长期基本面投资者通常只需处理几百个数据点,因为大多数上市公司只按季度发布财务报表。另一方面,高频交易者处理的价格低到纳秒,所得数据集的大小与粒子物理学中使用的数据集相当。


说明:粒子物理学的例子显示了大型强子对撞机每年通过一个初始过滤器并进行数字重建的碰撞次数,假设它每年70%的时间运行;遗传学的例子显示了RefSeq数据库中蛋白质序列的数目;宇宙学的例子显示了 “Planck 2018 results. VI. Cosmological parameters”, Planck Collaboration 2018”中的TT、TE和EE光谱。地质学示例显示了在扩张的海底岩石中可见的地球磁场极性的变化次数。
如上图所示,高频交易者和低频交易者可获得不同数量的数据,这决定了他们在实验观察量表上的位置。这两种类型的交易者都投资于同一个市场,但高频交易者使用的是在较短时间内可获得的大量数据。这使得他们能够进行实验性的操作,因为他们有更多的数据来评估他们的想法。
更快的交易信号更适合于实验,另一个更实际的原因是:它们通常具有更高的预期夏普比率,这意味着可以通过它们的样本外表现更快地判断它们。
例如,如果一个假设夏普比率为2或2以上的信号在几个月后产生了亏损,那么很可能是出了问题——也许这个想法已经被广泛发现并被“套利”掉了。那么可以关闭信号,然后开始新的实验。相比之下,一个夏普比率估计为0.5的策略可能会下跌一年以上,但仅仅由于业绩原因停止交易该策略是不合理的。这是因为多年亏损与该夏普比率水平的长期预期统计分布是一致的。
因此,实验和观察代表了量化投资的两种不同方法。实验方法包括寻找具有更高夏普比率的更快策略。个别而言,这些策略的容量有限,因为它们相对频繁的交易会产生交易成本。然而,其目的是通过组合大量快速信号来建立一个庞大的投资组合。
另一种方法是寻找容量更大、夏普比通常更低的信号。建立一个大型投资组合所需的此类信号较少,前提是它们之间的相关性较低。
在科学领域,实验与观察需要权衡,而不是非此即彼的选择。不过,这是一个有用的框架,有助于理解不同量化投资经理使用的替代方法。下表总结了一些主要差异。


尽管元盛在过去几年里在实验方面做了更多的工作,但从历史上看,我们的方法更具观察性。部分原因源于我们对期货市场趋势跟踪的研究。趋势跟踪是一个典型的例子:交易信号缓慢,容量大,夏普比率相对较低。因此,我们的大部分研究都是为了找到其他不相关的信号来与动量结合。我们专注于最适合这种方法的统计工具和分析方法。
机器学习的使用
最近,几乎每个领域的可用数据量都在迅速增加,这为预测建模创造了新的可能性。
例如,一个传统的股票分析师可能会阅读公司的每一份报告,在过去做盈利预测时就能知道某个公司的每一个相关事实或数字。然而,在今天的盈利预测中使用的数据可能包括卫星图像、信用卡消费信息、每辆卡车上每种产品的物流细节等等。
对于一个人或一群人来说,像过去一样密切关注这一海量数据是不切实际的。但是,这个明显的问题是一个很好的机会,可以应用一组俗称为“机器学习”的统计技术。从识别图像内容到在零售商网站上提出有针对性的建议,这些方法的成功是非同寻常的。但是他们有一个重要的要求:大量的输入数据。
这带来机器学习在快速交易策略中的适用性:短期价格信息量产生大量数据。在交易系统较慢的情况下,小而嘈杂的数据集的信息内容相对有限,不太适合用于机器学习模型。在这种情况下,更有用的是从数据中得出可靠的结论,集中精力于可解释性和简单性,而不是应用不必要的复杂算法。
也就是说,在元盛,我们也发现机器学习方法对较慢的交易策略很有用。这是因为我们的数据需求通常是非常重要的,特别是如果我们想执行一个冗长的回溯测试。举个例子,考虑一个分析公司季度报告文本的交易策略。要对最大的1000家美国公司进行40年的回溯测试,我们需要分析16万份报告。对使用数据的算法的任何更改都需要重新分析所有报告。这项任务超出了一组个人的范围。取而代之的是机器学习方法。
选择偏差的危险
元盛的研究主要是假设驱动的。研究人员将从一个关于世界的想法开始,然后搜索数据来测试它是否正确。当涉及到建立一个交易信号的想法,目标是与现有策略低相关,低换手率,低但是正的夏普比率,可能在0.3至0.5的范围内。
这些目标听起来不够远大。然而,如果只找到16个不相关的信号,每个信号的夏普比率为0.5,则会导致夏普比率为2的投资组合和非常大的容量——这是一个非常远大的野心!
然而,这在实践中很难实现。虽然很容易对夏普比率较低的交易信号进行回测,但很难确定夏普比率在未来仍将保持正值。统计估计误差是一个问题。一个更有害的问题是选择偏差。
要了解选择偏差是如何运作的,想象一下会产生100个随机交易信号,根据定义,这些信号没有洞察力或预测市场走势的能力。尽管如此,它们在回测中的性能不会精确地为零,而是会形成一个分布,并且一些信号似乎具有0.3或更高的夏普比率。如果我们只选择历史表现为正的投资组合,而放弃其他投资组合,我们将创建一个具有吸引力的后验投资组合,在实际中,包括交易成本后,夏普比率为零或更低。
这是一个典型化的例子,不幸的是,研究的现实可能太相似了。研究人员测试了很多想法,虽然它们不是随机产生的,但我们事先并不知道它们是否有效。即使这些想法平均来说是好的,但最好的回测部分是想法起作用的结果,部分是运气,因此真正的夏普比率可能被高估了。
此外,在许多组织文化中,由于选择具有最佳回溯测试的想法而产生的选择偏差根深蒂固。员工只想让他们的经理看到他们最好的结果。当某个东西工作得不太好时,很容易把它归档,然后转向一个看起来更有前途的想法,或者调整模型的参数,直到它工作为止。即使当研究人员意识到这一点时,他们也常常对最初的想法失败的原因做出随后的解释,因此将其从他们尝试过的想法列表中排除。
2005年,一篇颇具开创性的论文以戏剧性的标题“为什么大多数已发表的研究结果都是错误的”在学术界广泛地宣传了选择偏见的影响,而选择往往是在发表的时候。期刊更可能发表出报告显著结果的论文,而不是那些没有显著结果的论文。这导致了所谓的“复制危机”,研究人员无法复制先前工作的结果。
类似的,投资管理是回测和实际表现之间的差距。我们之前已经展示了趋势跟踪产品在上市后表现不佳的趋势。从不同来源收集数据的综合分析(Meta Analysis)显示,这个问题出现在整个投资领域。

投资策略实施前后的绩效研究
减少选择偏差
如上所述,选择偏差问题并非纯粹的技术问题。即使所有的研究人员都以一个模范的标准来完成他们的工作,这也可能出现。问题在于研究的组织框架。在最近的一篇论文中,结合机器学习在量化金融中的应用,讨论了在组织层面解决这一问题的必要性。在这里,我们描述一些步骤,我们更观察的研究过程需要。
元盛减轻选择偏差的关键结构是假设注册的概念。这得益于临床试验注册的理念,有助于减少医学研究中选择偏差的影响。在元盛,一个提议的新信号被精确地记录在注册处中,然后整个研究部门都可以看到。这使其他研究人员有机会在早期对这一想法进行同行评审。重要的是,它还允许我们跟踪我们测试的想法的数量。这一过程的协作性和开放性也有助于减轻个别研究人员仅分享积极发现的压力。
与临床试验一样,注册处包括如何测试这个想法的精确细节:将使用什么数据,将在什么时间段用于分析的不同部分,将进行什么统计测试,等等。
重要的是,一个交易理念的注册包括每一个将要测试的小变化。正如我们所看到的,如果有太多的想法被测试,那么虚假的成功很有可能是偶然出现的。如果我们在一个想法上测试更多的变化,就需要一个更高的显著性阈值,这意味着我们至少需要知道我们在测试多少个想法。
一旦这个过程完成,这个想法就会在市场数据上得到验证。结果是一个更加鲁棒的研究框架。我们可以拒绝那些原本可以接受的交易策略,如果我们没有跟踪被测试的相关想法的数量,并且没有进行必要的统计更正。我们能够对信号可能的样本外性能做出更准确的评估。
结论
量化投资经理的操作需要做好平衡。其中一端可以概括为更接近交易,通常涉及更高频率的策略;实施新系统的更具实验性的方法;关注更高的夏普比率和更低的容量;对大型(通常是日内)数据集的要求,以及随之而来的对机器学习的兴趣。另一端更接近于投资,通常系统速度较慢,交易成本较低;这种方法必然更具观察性;次级策略的夏普比率较低,但能够管理更多的资本;以及对处理少量数据和在噪声数据集中发现弱信号的微妙之处的必要理解。
建立对较低夏普比率策略的信心,或研究他们,是困难的。这一困难既有组织上的,也有技术上的,需要一种自上而下的方法,类似于许多政府现在强制要求医疗试验注册的方式。例如,在元盛,我们的研究人员自2012年以来测试的每一个假设都是预先注册的。我们还对我们的研究方法进行了多年的综合实验,以测试其有效性,并取得了成功。
在狂热的炒作中,大数据和机器学习确实为追求较慢交易策略的投资经理提供了机会。但更多的时候,研究人员面临着从相对较少的数据中做出推论的问题。在这种情况下,使用上文讨论过的技术来提取可靠的信息是至关重要的。
欢迎读者阅读以下相关文章:
雷闻:如何判断你的投资研究流程是有效的?_元盛Winton_HIT50zhuanlan.zhihu.com雷闻:我们为什么相信?_元盛_对冲基金文章翻译计划030zhuanlan.zhihu.com