如何判断你的投资研究流程是有效的?_元盛Winton_HIT50


(suibiantell) #1

原文章来自Winton Capital网站,本文为原文章的中文翻译。本文不构成投资建议,不代表个人观点。本文仅用于交流学习使用,不得用于商业用途。如对相关著作人造成侵害,请立即联系译者及时删除。

原文标题:Testing our Strategy for Testing our Strategies

原文时间:2015年8月

翻译:雷闻


测试系统化投资策略的最可靠方法是使用设计策略时无法获得的数据。这种“样本外”测试消除了由于过度拟合而导致绩效下降的可能性。基于回测来评估策略绩效时,过度拟合是常见的问题。

样本外测试的困难在于,许多策略的预测能力较弱,这意味着验证可能需要很长时间:要得出具有统计意义的结论,通常需要数十年的新数据。

在这里,我们描述了一个独特的实验,它允许元盛在相对较短的时间内就一系列策略得出结论,从而证明了公司研究过程的有效性。

在元盛,我们有一个明确的测试和筛选信号的过程,在过去20年里,经过反复试验、犯错和仔细思考,这一过程得到了磨练。我们的研究过程旨在回答这样一个问题:交易策略是否有效?但我们也应该问一个问题:我们的研究过程有效吗?

样本外验证

我们开发的策略估计夏普比率低至0.2。一个真正的夏普比率为0.2的策略,在连续三年内亏损的可能性超过7%,因此有被拒绝的风险,即使从长远来看它可能是盈利的。

为了克服这个问题,我们会问,我们所有策略的平均技能是否都是正的。如果是的话,那么这将支持这样一种观点,即我们的筛选方案能够将真正有技巧的策略与那些历史表现完全取决于运气的策略区分开来。

2012年,我们设计了一个实验来测试我们的策略是否具有样本外技能。实验最初包括八种非趋势策略:我们想测试我们开发能够补充趋势跟踪策略的策略的能力,元盛自1997年成立以来一直交易趋势跟踪策略。如果他们通过了我们的筛选方案,实验允许增加新的策略。实验包括的策略的数量为26个。

这项实验的一个特点是使用了序贯统计检验,而不是固定样本量检验。序贯检验在工业质量控制中有着广泛的应用,在药物试验中也有着广泛的应用。我们一直在收集数据,直到我们能够接受我们的策略没有技能的无效假设,或者接受他们有技能的替代假设。

实验规则是为了避免多重测试问题而设计的。序贯方法的优点是,如果证据压倒性地支持其中一个相互竞争的假设,可以允许实验提前终止。缺点是必须收集的数据量事先不知道。

在开始实验之前,我们使用不同的假设进行模拟,假设我们的策略可能有多熟练,以及新策略加入实验的频率有多高。这些模拟结果表明,实验可能需要三年以上,甚至可能长达十年。

研发项目的时间尺度在制药或航空航天行业比在金融行业更为典型。但由于我们的目的是验证与背景噪声相比较弱的预测信号,因此我们必须收集足够的数据,使我们的结论在统计上可信。

序贯概率比检验

我们采用序贯概率比检验。这个统计测试是由亚伯拉罕·沃尔德在第二次世界大战期间开发的,目的是使战时工业质量控制更加有效。在战争的大部分时间里,它都是保密的,但沃尔德最终被允许在1945年出版。

测试包括计算对数似然比(LLR,Log-Likelihood Ratio),对比在每个相互竞争的假设下获得观测数据的概率。在我们的实验中,这些相互竞争的假设是H0:我们系统的平均夏普比是0,H1:平均夏普比是0.2。

![](data:image/svg+xml;utf8,)

新数据可用时,将更新LLR。是否接受假设H0或H1的决定采用以下规则:

![](data:image/svg+xml;utf8,)

阈值a和b由我们准备容忍的假阳性率α和假阴性率β决定。在我们的实验中,我们设置α=β=0.05。

结果

实验于2012年7月启动,通过筛选程序的策略也加入到实验中。平均每两个月增加一次策略。

对数似然比的演变如图1所示。对数似然比不等于损益。例如,对数似然比下降并不一定意味着这些策略正在亏损,而仅仅意味着无技能假设看起来更有可能。

2015年6月,对数似然比超过上限b,表明我们可以接受假设,即我们的策略平均具有技能。到2014年底,许多组成系统都有一段特别良好的表现。

系统之间的相关性(减少了所收集的有效数据量)用于校正对数似然比。不可能排除业绩只是运气好的可能性。然而,我们一直在收集数据,以不断验证我们的策略具备技巧的假设。

实验中所包含的策略的表现有所不同。其中一些策略在测试期间亏损,而一些策略表现异常出色。然而,观察到的绩效差异在统计学上并不显著。我们不可能否认这样的假设:所有的策略都拥有相同的技巧。

图1:对数似然比比较了我们的策略没有技能的假设和它们确实拥有技能的假设

![](data:image/svg+xml;utf8,)

实验限制

积极的实验结果提供了证据,证明我们的筛选方案是有效的,但有一些问题,应该铭记在心。首先,即使所有的基本假设都是正确的,测试也会有0.05的假阳性率。换言之,如果实验中包含的策略没有技巧,仍然有5%的概率获得阳性结果。

除了积极的结果可能是一个统计上的侥幸的警告,还有一种可能性,即策略绩效是非平稳的。也就是说,过去拥有真正技能的策略在未来可能不会继续这样做。随着时间的推移,策略可能变得不那么有技巧,这突出了绩效监控的必要性。

结论

在一个精心设计的实验中,一个由26个研究认可的交易策略组成的集合平均显示出了真正的预测技巧。这不仅对这些系统的盈利能力是一个令人鼓舞的结果,而且对元盛的研究方法也是如此。

元盛处于一个独特的地位,能够将资源分配给像这样重要但艰苦的研究项目,这些项目需要耐心和技术专长,以便批判性地审查我们自己的方法。


欢迎读者阅读以下相关文章:

雷闻:解码AI在金融服务中的角色_Winton_对冲基金文章翻译计划034​zhuanlan.zhihu.com图标雷闻:系统化趋势跟踪策略的最优速度?_元盛Winton_HIT44​zhuanlan.zhihu.com图标雷闻:贸易冲击对金融市场的持久影响_元盛Winton_对冲基金文章翻译计划036​zhuanlan.zhihu.com图标