对冲基金文章翻译计划005B_英仕曼AHL_过拟合及其对投资者的影响_圆桌讨论

由polll创建，最终由polll更新于2023-06-14 03:02 被浏览 8 用户

Man Ahl学术咨询委员会于2015年5月召开会议，讨论过度装修及其对投资者的影响。

董事会成员具有不同的观点和深厚的专业知识，其成员包括：

•尼克·巴贝里斯 Nick Barberis

耶鲁管理学院金融学教授

–世界领先的行为金融专家之一。

•坎贝尔·哈维 Campbell Harvey

杜克大学福库商学院金融学教授，2006-2012年《金融杂志》编辑。

–一位主要的金融经济学家，专注于风险的动态和定价。

• 尼尔·谢泼德 Neil Shephard

哈佛大学经济学和统计学教授。2007-2011年任牛津曼恩定量金融研究所（Oxford Man Institute of Quantitative Finance）创始主任。

–顶尖的理论和应用计量经济学家之一。

这些杰出的学者包括英仕曼AHL首席执行官Sandy Rattray、英仕曼AHL首席投资官Matthew Sargaison、英仕曼AHL Dimension计划主管Nick Granger、英仕曼AHL首席科学家Anthony Ledford、英仕曼GLG首席投资策略师Jamil Baz、英仕曼Numeric首席投资官Rob Furdak、Shanta Puchtler、首席投资官兼董事英仕曼 Numeric的研究，以及Marco–Andrea Buchmann，英仕曼AHL的定量分析师（之前是CERN的研究员）。

什么是过度拟合，为什么它对投资者很重要？过度拟合的成本是什么？

卡姆·哈维（Cam Harvey，CH）：**过度拟合是指你提出一个过于复杂的模型来解释一些非常简单的事情；也可能是你发现了一个只能偶然有效的简化模型。**当面对新数据时，过度拟合的策略可能表现不佳，无论是在分析师尚未看过的样本外数据，还是投入实时交易。这是因为模型没有充分描述效应，而是数据中的噪声，所以当你将其应用于不知道的数据时，效率会降低很多。随着如今金融数据和计算能力的轻松可用，这种类型的数据挖掘一直在增加。金融界正在进行太多的数据挖掘！

尼尔·谢泼德（Neil Shephard，NS）：我认为过度拟合不一定是描述问题的正确方法；在构建模型时，您期望复制。在不断变化的世界中，复制非常困难。“过度拟合”是它的一个方面，但总的问题是你必须利用过去来指导你为未来做决定，但是你可能会被过去误导。过去的数据，过去的数据分析，昔日辉煌，误导性的经济理论。所有这些可能会使您困惑，影响您如何制定和验证模型。我们应该时刻记住，目标是拥有一个投资业绩始终如一的策略。

马修·萨盖森（Matthew Sargaison，MS）：20年前，我们面临着不同的问题——今天我们有太多的数据，我们更容易受到过度拟合的影响。

詹米尔·巴兹（Jamil Baz，JB）：但是数据挖掘并不一定是坏的！在过去的几十年里，观点发生了重大变化，人们开始将数据挖掘视为一种罪恶，但越来越欣赏数据挖掘。**数据挖掘的一个最积极的方面是，如果使用得当，人们可以在不需要理论先验的情况下偶然发现事物！**例如，想象一下，从期权数据中发现布莱克-斯科尔斯方程，而不必进行数学运算…

NS：科学显然比20年前对基于数据的研究更开放。癌症研究是一个很好的例子，有很多研究具有可重复的结果，但还没有完全理解。但我们可以从[Cornfield et al, 1959]，以及丁和范德维尔[Ding and Vanderweele, 2014]最近的形式化中学习。仔细的工作往往需要非常有力的证据才能被相信，因为因果类型推理可能被遗漏的变量或错误的科学理解所误导。丢失某些东西，或总体上过度拟合，会导致巨大的成本。正如Cam所说，过度拟合的策略在未来将表现不佳，我认为可以总结过度拟合的成本，以及其他如模型错误指定的效应，即您销售的产品与客户获得的产品之间的差异。

尼克·巴贝里斯（NB）：成本可能远大于缺乏再现性——如果数量过多，投资者将失去信任。例如，在心理学的某些领域，缺乏再现性已经达到了危机的程度，这严重损害了人们对发表结果的信心。

雷闻：索罗斯的背痛，《海龟交易法则》，投资领域的成功能否复制？zhuanlan.zhihu.com

（笔者：如果想深入了解投资中的再现性这个概念，可以阅读笔者的这篇文章）

考虑到过度拟合的成本，为什么会发生过度拟合？我们是否天生会过度拟合，在只有噪音的地方找到模式？

NB：我们看起来确实天生会过度适应。[Tversky and Kahneman, 1971]和[Rabin, 2002]表明人们倾向于从小数据样本中过度拟合；赌徒的谬论就是一个很好的例子。当我们从进化的角度来考虑这个问题时，过度适应可能对我们的祖先有帮助：如果你听到一个声音，并且假设它是一个捕食者，那么你可能会活下来传递你的基因，而没有反应的人可能就没有那么幸运了。因此，对过度拟合的偏好被传承了。但这不仅仅是提供了一个进化优势：我们也有强烈的动机去寻找事件的解释，以便感觉到我们在控制之中。如果我们相信宙斯会引起地震，那么我们就可以通过安抚宙斯来试图阻止地震。通过“检测”和“解释”数据中的模式，人们感觉更好，更能控制。确认偏差只会让事情变得更糟。一旦我们有了一个假设，我们就过于容易接受证实它的进一步的证据，而过于封闭于反对它的证据。

Anthony Ledford（AL）：行为心理学有一个很好的例子，证明它确实不仅仅是人类的特征——B.F.Skinner用鸽子做了实验[Skinner, 1947]，鸽子被放在笼子里，在随机的时间点给食物。鸽子试图抓住一个模式，并重复一定的动作，试图触发食物释放，即使喂养是随机的。过度拟合似乎并不局限于人类…

雷闻：量化投资为什么做历史测试？从迷信的鸽子实验谈起zhuanlan.zhihu.com

（笔者：关于赌徒谬论和Skinner的迷信的鸽子实验，可以阅读笔者的这篇文章）

如果我们是天生倾向于过度拟合，那么有没有哪种策略没有过度拟合呢？投资经理是否意识到过度拟合呢？

桑迪·拉特瑞（SR）：我认为那些对过度拟合最负责任的人是主观的投资经理，据我所知，主观的投资经理基本上只是过度拟合。换言之，他们非常喜欢接受过去的单一场景，说“它发生在那个场景中，现在看起来是一样的，所以这次我们应该这样做”。

JB：我同意，我认为，它与哲学所谓的认识论和技术论有关。认识论，或称为“正当的真实信仰”，是指当你有一个可重复的实验，然后你可以从统计推断中得出结论。另一方面，技术论是指实验本身不适用于这种技术。技术论的例子是今天向宏观管理者和宏观管理者提出的一些突出问题。QE会起作用吗？当股票市场的价值乘以三，总债务与国内生产总值同时增加40个百分点时，会发生什么？

SR：但主观投资管理者通常会说‘好吧，日本就是例子，我们没有很多，但我们有一个。那么让我们以日本为例，看看日本发生了什么，好吧，这就是将要发生的。

JB：没错！关键是，如果你有一个数据点，你可以用一个点来推断，这是主观管理者的宏观经济计量学中的一个久负盛名的策略，但是如果你没有一个数据点，那就是事情变得有趣的地方，那就是你需要进入技术论而不是认识论的地方，那就是你需要去推测生命的地方…

SR：我认为有一个更大的观点，那就是尽管主观投资经理比量化投资经理更糟糕，但在过度拟合方面，实际上每个人都过度拟合。有没有什么策略不过度拟合？

Rob Furdak（RF）：从理论中衍生出的策略呢？

CH：理论是灵活的，所以仅仅理论是不够的，而且有时理论也被过度拟合了。

NB：我也不认为基于理论的策略是“免疫的”——理论是有帮助的，但它不能保护你不被过度拟合。尽管如此，试着形式化一个论点，并做数学，你有时已经能够看到不成立的逻辑，所以从这个意义上说，理论是一个很好的对过度拟合的防御，但它远不是万无一失的，特别是因为理论是基于假设和参数，可以很容易地调整。

如何检测过度拟合？

CH：有两个明显的危险信号：例如，一个策略没有任何经济意义，是违反直觉的。它还包含不合理数量的参数来解释一些相当简单的、没有意义的参数。同时，确定一个策略是否过度拟合是很困难的，因为一个策略停止工作的原因不仅仅局限于过度适应——也可能是结构变化或人们把效率低下给套利掉了。

NS：理论上，这不是一个非常困难的问题。贝叶斯定理告诉你如何检验这个问题，你看以模型为条件的证据，你可以根据复杂性惩罚模型。

JB：还有一个隐含的生存偏差，如果你有一个价格或其他经济数据的数据库，那么你会自动地看到一个做得相当好的国家。

NS：世界在不断变化，这是复制最根本的问题。

AL：这就是为什么金融不同于粒子物理学或基因组学。有反馈——市场变化推动情绪和监管，进而反过来改变市场。很多策略捕获的效应很小，它们“几乎不起作用”，因此很难评估它们是否仍然在捕获一个效应。

Shanta Puchtler（sp）：如果量化投资经理人为地在输入、输出、数据集和分析师中添加噪声，然后制定策略，会怎么样？作为测试的一部分，除了观察样本外，我们还可以去除人工噪声，如果效果是真实的，那么去除噪声应该可以提高性能。在一个相关但有些不同的注意事项上，我们甚至可以想到一个鲁棒性测试：如果删除或修剪异常值，会发生什么情况，它仍然运行良好吗？

Marco Andrea Buchmann（MAB）：粒子物理学中的精确测量的下的一些常见做法和这个问题相关。研究人员可以测试他们的算法，并在一个故意“修改”的数据集上提取结果——一旦他们确信他们的算法有效，他们就会查看未修改的数据，然后再次运行相同的算法并报告最终结果。所以这与Shanta的想法是一致的。

NS：重要的是要记住，I型和II型错误并不是为了满足金融需求而设计的，因此随着越来越多的论文使用这些迟钝的工具在同一个数据集上发表，学术文献应该变得更加怀疑。因此，人们应该有不同的方法来决定研究方法的成功。

有哪些方法可以评估或消除过度拟合？

NS：**人们可以找到一组模型，而不是找到一个优秀的模型，**这就是“模型置信集”（[White，2000]和[Hansen et al.，2011]）的概念。这是一组模型，这些模型在统计上具有竞争性，基于标准，如最大回撤、风险度等。**其次，您可以惩罚模型的复杂性，**例如使用边缘似然度。此外，您可以使用模型平均，而不是寻找单个模型。最后，在数据科学中，从讨论过度拟合到考虑正则化还有很多变化：当你有很多回归系数时，你应该将它们缩小到你之前的，例如使用lasso方法，你甚至可以将参数缩小到零。使用lasso类型参数的一个例子是在投资组合分配中，在这里您可以强制您卖空小于25%。在金融学之外，遗传学也是一个很好的例子，当他们面对10000个基因，但样本为1000人时，他们会看正则化。

CH：一种常见的方法是查看不同模型的运行情况，即修改模型参数并查看相应的“热图”，并评估参数变化时性能如何变化。如果您的参数选择是一个突出的孤立点，那么这是警示，表明参数选择是数据挖掘的结果。

NS：这与你在统计学中寻找的恰恰相反，统计学中你希望事物被高度指向，这样就有了一个完美的解决方案，而其余的只是平面的。然而，正如通常所说的统计思维对于这类问题并不理想。

JB：还有一篇有趣的论文[Ioannidis，2005]，作者在这篇文章中讨论了真实关系的数量与“没有关系”的数量之间的关系。这个数字在许多领域都很小，导致大多数结果都是错误的，事实上，与所有关系相比，真实关系的数量越少，就越有可能找到不是“真实”关系的关系。你认为这个比率在金融业是多少？我会说它很低。

尼克·格兰杰（NG）：我认为“真实关系”的概念甚至不适用于金融业，因为它具有极端的非平稳性和反馈效应，但金融业的信噪比肯定非常低。

JB：是的，所以监控我们的策略很重要。这里有拒绝率的概念，所以基本上要监控最初提出了多少策略，以及它们在整个过程中所达到的程度。有多少策略没有在最初的研究阶段幸存下来，有多少策略在审查过程中丧生，还有多少人没有通过测试交易——监控这个比率可能是一项重要的资产。

CH: 英世曼研究了过度拟合的可能性[Bailey et al, 2015]，结果如何？

MS：是的，我们已经看过了。均值回归的假设有点强，但是我们已经使用这些思想来加强对样本内和样本外的数据分区。现在你必须写下数据分区、方法和期望。

SR：也许我们可以使用假数据，看看策略是如何执行的？

MAB：在粒子物理学中也做了类似的事情；我之前提到过有意修改的数据集，但是在分析从碰撞机得到的任何真实数据之前，我们也会生成假数据。这有一系列的用途，最重要的是当然要了解一台新机器并研究它，同时还要了解信号，看看我们如何在假设它存在的情况下改进它，从而提高信噪比。其目的是准备一个设计良好的假设测试，而不优化实际数据集中的噪声参数。

在其他行业中如何处理过度拟合？金融业能从他们身上学到什么？

MS：制药行业以令人惊讶的频率被竞争对手引为最佳实践领域，考虑到隐藏数据集和不良实践带来的一些非常糟糕的结果……但是我们能从其他行业学到什么呢？

CH：不同行业的问题类型各不相同，制药行业确实受到了攻击。有一个名为all http://trials.net的组织在一份请愿书中有近100000个签名，要求公布所有临床试验的结果。如果一家公司进行了19次试验，而每一次都失败了，他们对试验结果保密，然后报告第20次试验的所谓的“显著”的结果，那这意味着什么？隐藏的测试是一个巨大的问题，但不仅对制药公司，而且对金融也是如此。投资经理看到初级研究员的结果，但可能不知道尝试了多少策略。更糟糕的是，一个客户可能会得到一个精心选择的结果，而不知道为了给到她所看到的结果而进行了数百次试验。至关重要的是，投资经理要记录下所有的尝试。

MS：**这是我们在英世曼内部所做的事情，我们确实会记录下我们所做的事情。另一方面，在行业层面，这是永远不会发生的。**制药公司和金融公司之间的一个主要区别可能是，制药公司将受益于假阳性药物，因为他们的药物似乎有效，而且他们可以将其货币化。另一方面，我们交易的东西只是随机性。

NG：这可能比这更糟：在金融领域，除了交易成本，一个错误的发现很可能使你得到零的收益，所以虽然不是很好，但也没有那么可怕。在医学上，如果你做错事，可能会使事情比零更糟。

NS：在一个有些关联的领域，遗传学，大量的假设被测试，和流程会看大量的关系。一旦找到了许多候选对象，焦点就转移到这些对象上，以详细分析和理解它们——数据挖掘被用作一种探索性分析。

MAB：这在许多科学分支中很常见，他们经常发现自己处于与金融类似的境地。由于资金压力，科学家们需要发表论文。一些领域，如医学，无效结果没有得到公布，所以非无效的结果被公之于众——这几乎是一个过度拟合的处方。粒子物理学杂志上确实发表了无效的结果，但人们非常清楚潜在的过度拟合。CERN采取了一系列措施，包括人工数据集、控制区域、样本内和样本外的严格执行，以及通过其他团队复制结果所进行的严格的复审过程。所有这些确实有助于解决过拟合和保持高质量的研究。

NS：坎贝尔（CH），你曾经是《Journal of Finance》的编辑，有没有金融方面的复制研究？

CH：复制研究很少在顶级期刊上发表。为什么？的确，作者可能已经研究了许多变量来得到这个关系，但是一旦你有了这个关系，任何人都可以很快、很便宜地复制这个基本概念。大部分财务方面的复制都是由博士生的课堂作业或投资经理进行的，他们会检查学术研究结果是否对资产管理实践有用。在医学上，复制是昂贵但重要的。如果一种药物上市，尽可能多地进行独立测试是很重要的——排除一种测试结果只是侥幸的可能性。在心理学上，复制也是非常昂贵的。然而，与医学不同的是，没有动机去重复这些研究——主要是因为这与生与死无关。因此，在心理学上，将真实的发现与幸运分开要困难得多。

NB：这个问题在心理学的某些领域已经达到了危机的程度，它确实在削弱人们的信心。他们将注意力集中在与其他领域类似的想法上，比如P曲线和P操纵。另一个想法是提前记录你要运行的实验等等。令我吃惊的是，现在这个问题在许多不同的领域真正达到了顶峰。

JB：在我看来，与医学或物理学不同，我们在金融领域处理的是一阶随机游动，这可能是由理性预期引起的。除此之外，模型和代理之间还有一个反馈机制，这意味着在金融领域的举证责任比在其他领域更难承担。

平稳性的作用是什么？一旦我们退出样品或进入现场交易，我们能区分非平稳性和过度投资吗？

NB：非平稳性是有原因的，机制也可以测试，例如，如果你认为效应被套利掉了，你可以在更难交易的市场中寻找效应。如果你相信有一个结构性的突变，那么你也可以测试它。

CH：重要的是要注意，虽然通常情况下，一个稳态不会立即从一个转换到另一个，所以它可能不那么容易被发现。

AL：有很多方法可以解决这个问题：如果你有一系列的策略，并且你在所有策略中同时看到相同的突变，那么就有可能出现稳态更替。然而，如果突变只出现在一种策略上，那么它更有可能是由于过度拟合。

MS：不幸的是，大多数策略的夏普比率都很低，所以即使你认为存在结构性变化，你也需要等待一段时间，让表现不佳变得显著。

NG：我认为这是物理学和金融学的根本不同之处；在金融学中，稳态转换的概率总是大于零。在大多数科学分支中，平稳性假设的问题要小得多。

在寻找适合的策略时，可以使用哪些措施和方法来减少过度拟合？投资者如何确认过度拟合已被正确考虑了？

MS：在针对例如Man AHL或者Man Numeric等等的尽职调查流程中，CAM会建议什么？每个人都会说他们有最好的执行力，最好的研究团队，最闪亮的建筑，你实际上需要寻找和询问什么？

CH：我以前在美国一家大型养老基金工作，对知名资产管理公司进行尽职调查。我发现公司内部研究文化的评估是很难定量地衡量的。为了尽量减少过度拟合，您可以实施某些保护措施，例如，公司跟踪研究人员访问数据或运行不同模型的次数。然而，如果研究人员想挖掘数据，他们通常可以绕过这些保护措施。我总是在公司里寻找“失败的文化”。假设两个研究者提出了两个观点，并且这两个观点都被认为是高质量的。资源分配给调查。两位研究人员都做了高质量的工作。第一个研究者的假设得到了测试的支持。第二个研究者的想法没有得到数据的支持。再次强调的是，两位研究人员都提出了高质量的想法，并且都进行了高水平的测试。**第二个研究者不应该仅仅因为这个发现是负面的而受到惩罚。这位研究员做得很好。如果对第二个研究者有惩罚性的后果，这将导致潜在的极端数据挖掘。**研究人员知道他们必须展示一些“显著”的东西，否则会有负面的后果。当然，这些“重要”策略注定会在客户交易中失败。因此，这样一种文化是重要的，奖励工作质量高但是失败的研究。

SR：人们通常不会问太多关于过度拟合的问题。第二，我不认为我们已经做出了一个特别令人信服的例子：如果t统计量是3而不是2，我们以一种明确的方式使用样本外，然后投资者的回报会更好。我不确定这是否像我们希望的那样令人信服…这是件困难的事。如果有人告诉我错了，我会很高兴的！

CH：很明显，投资者应该要求对公司如何处理这些问题作出某种解释。**如果投资经理没有仔细考虑这些问题，那对我来说是一个危险信号，我会避免和他们一起投资。**当然，正如桑迪（SR）提到的，这是一种权衡。如果宣布策略显著性的障碍太高，这将大大降低将资金分配给仅仅是数据挖掘结果的错误策略的可能性。然而，重要的是，它也会导致公司错过一些真正的赚钱策略。平衡由管理层来决定。然而，如果不深入思考公司的研究过程，就不可能解决这个问题。

MS：我们要传达给人们的一个重要信息是，所有的策略都是首先用公司的资本进行交易的。

NG：有趣的是，**我们通常会在2-3个月内测试一个新的模型，但时间并不充足到得出关于业绩的任何具有统计意义的证明。然而，在很多情况下，这一过程已经抓住了“坏”的策略。**这可能会发现研究或实施中的错误。一个模型立即就大幅回撤，这肯定是一个警告信号。对于预期夏普比率较高的模型，我们可以更确定：例如，前三个月20%的降幅肯定与假设的3的夏普比不一致。

NS：如果我用夏普的1，我认为我的过度拟合/模型误差共识夏普是±0.2，那么作为一个专业人士，如果我在交易中没有达到0.8，我会感到惊讶，但如果我超过夏普的1.2，我也会感到惊讶。这将有助于制定一个标准来量化过度拟合或更普遍的模型误差的风险。

对冲基金文章翻译计划005B_英仕曼AHL_过拟合及其对投资者的影响_圆桌讨论

标签