量化投资的哲学基础3:休谟说,量化投资模型都是过度优化


(yishui) #1

系列前两篇文章如下:

量化投资的哲学基础1:量化投资不是“量化”投资

量化投资的哲学基础2:笛卡尔说,股票多因子模型是个好框架

%% ===================================================================

1. 引子

系列第一篇文章,我们得出结论,量化投资是科学的投资方法,因此量化投资能够从科学哲学的方法论中吸取营养。

系列第二篇文章,我们简单提到量化模型如何提出问题,并从笛卡尔的方法论的四句箴言中得到启发:多因子模型是一个非常好的模型框架。

当多因子模型的框架确立好以后,我们需要开始寻找因子了。或者用更普遍的话说,我们需要获得知识。

知识从哪里来?最传统的方法就是演绎(Deduction)和归纳(Induction)。还有第三种方法Abduction,将在系列第四部分中详述。

2. 演绎

演绎推理,从陈述(前提)到逻辑上确定的结论的推理过程。

Deductive reasoning - Wikipedia

举个三段论的例子:

大前提:刘总的策略都是赚钱的。
小前提:L3策略是刘总的策略。
结论:L3策略是赚钱的。

我们分析一下上面这个例子:只要两个前提是正确的,那么结论就是确定的。

那么我们想想,量化投资中有哪些策略是通过演绎得到的?

套利策略是最典型的通过演绎得到的量化策略:关于衍生品的期现套利和跨期套利、从Put Call Parity推导出来的看涨期权和看跌期权套利、ETF套利和分级基金套利等等。

这类策略的特点有几点:1. 策略都是教科书式的,因为众所周知。2. 策略的收益在建仓时就已经锁定了,也就是演绎推理的“确定”的结论。3. 因此,这类策略的获利能力取决于市场犯了多少的错误。随着市场更加理性,套利策略逐渐演变成IT的军备竞赛,策略收益很难持续。

还有一类量化策略用到了演绎推理,但是往往不能很好的符合实际情况,而用处不大,典型的是资本资产定价模型CAPM。后面会有更细致的阐述。

3. 归纳

简单论述了演绎之后,我们来讲获得知识的第二种方法归纳。

归纳是从特例到总体的不受限制的概括推理。归纳推理中,前提并不保证结论。归纳的正当性和形式是科学哲学的核心问题,因为归纳在科学方法的传统模型中起中枢作用。

Enumerative induction - Wikipedia

那么我们再用一个例子来说明什么是归纳:

前提:目前观察到的所有天鹅都是白色的。
结论:所有天鹅都是白色的。

在量化投资领域,绝大多数的模型都是通过归纳得出的。

技术分析相关的因子完全依赖于归纳。在回测之前,我们将很难通过演绎推理来判断价格将以动量还是反转来运行。我们将很难解释为什么股指期货在日内通常是动量的,而股票价格在20天的周期上通常是反转的。而即便是动量,我们也很难用演绎推理来判断动量的具体形式,也因此会诞生众多的技术指标。但是,通过回测,也就是通过对价格历史的归纳,我们将很容易得出结论。

而基本面分析中归纳也是最关键步骤。我们可以通过各种财务信息对股票进行估值,也就是所谓的演绎方法。然而被低估的股票并不必然在未来带来超额收益。极有可能存在你不知道的基本面信息,长期压制股票价格。极有可能,市场将长期无效下去。然而,通过回测,也就是通过归纳,我们将很容易地总结出被低估的股票未来的价格走势。而反过来,即便一个研发者不知道任何基本面分析知识,仅仅通过归纳,也能通过遍历发现有效的基本面因子。

因此,在量化投资的基本面研究中,归纳也比演绎更重要。

4. 演绎的CAPM,归纳的Fama-French模型

金融学中,因子模型的演进是一个非常经典的关于演绎和归纳的作用的例子。

因子模型诞生于资本资产定价模型(CAPM)。CAPM的发明者之一,威廉.夏普在1990年获得了诺贝尔经济学奖。Capital asset pricing model

![](data:image/svg+xml;utf8,)

CAPM模型就是典型的通过演绎得出的知识。

CAPM基于多达九条假设。1. 投资以经济效用最大化为目标。2. 投资人是理性和厌恶风险的。3. 投资人会在所有资产上做分散投资。4. 投资人不会影响价格。5. 投资人可以以无风险利率借贷无限的资金。6. 没有税收和交易成本。7. 资产可以无限分割并且流动性无限。8. 投资人的预期相同。9. 所有信息将同时传递到所有投资人。

CAPM得出了一个非常简单干净的结论:在给定的无风险利率和市场的预期收益率的情况下,股票的预期收益仅仅取决于股票对于市场超额收益的敏感性。也就是说,股票价格仅仅受到“市场”这个唯一因子的影响。

然而,股票市场千变万化,这么一个简单的模型必然难以得到足够的证据支撑。

因此,对CAPM模型的改进开始了,大致三条道路:

第一条道路,继续沿着严格的演绎推理发展,衍生出了ICAMP和CCAMP等模型。这些模型已经很少被提及了,这一条道路是失败的。

第二条道路,为套利定价理论(APT)。APT认为,资产的预期收益是不同的宏观因子和市场指数的线性函数。当资产的收益偏离了这些外部因素的影响时,套利交易将纠正这些偏离。APT模型大大放宽了CAPM模型的假设,并打开了CAPM封闭的单因子框架,引导大家去“归纳”会影响股票收益的重要的宏观因素。

第三条道路,为Fama-French三因子模型(FF)。模型发明者之一的尤金.法玛获得了2013年诺贝尔经济学奖。

![](data:image/svg+xml;utf8,)

尤金.法玛

FF模型和APT模型都为多因子模型。然而FF模型没有假定股票收益受到宏观因素的影响,没有假定套利交易的存在。FF模型发现小市值股票的预期收益率高于大市值的股票,低估值的股票的预期收益率高于高估值的股票,这两个因素无法用市场因子来解释。因此股票价格受到市场,市值和估值三个因素的影响。FF模型没有为后续因子的发现给出任何限定。FF模型纯粹是“归纳”出的模型。

然后,对演绎的依赖最小和对归纳依赖最大的FF模型无论在学术界还是业界都获得了成功,成为量化投资和股票多因子模型最重要的源头。

通过这个例子,我们想说明,在量化投资领域,归纳是比演绎更重要的获得知识的方法。

然而,归纳方法存在一个致命问题。

5. 休谟问题和过度优化

过度优化是量化投资领域让人谈虎色变的问题。一个模型可能在回测中取得非常高的收益和非常小的风险。然而实盘中,这样的高收益和低风险却很难复制。甚至策略一上线就失效。

我认为过度优化至少有三个层面:

第一:数据过少,以至于无法归纳出可以稳定外推的模型。这个层面的问题最好解决,可以采用更长时间和跨市场的数据,甚至采用bootstrapping方法扩大样本。

第二:模型过拟合,以至于大大低估了噪音。这个层面的问题复杂一些。

机器学习中用来防止过拟合的方法有哪些?

文章中提到了一些有用的方法来避免模型的过拟合。例如简化模型,增加随机因素和叠加模型。

第三:休谟问题。哪怕数据足够充分,哪怕模型很好地适应了全部数据,归纳出的知识是无法保证可以外推的。

回到解释归纳含义的例子。

前提:目前观察到的所有天鹅都是白色的。
结论:所有天鹅都是白色的。

然而,显而易见,天下所有天鹅都是白色的这个前提,是无法确保未来不发现黑天鹅的。正如人类历史上一样,随着地理大发现,人类终于在澳洲这个新大陆发现了黑色的天鹅。

因此,所有基于归纳的量化模型都面临着休谟问题。我们无法保证过去有效的量化模型,未来仍然能够适应市场。一旦市场发生改变,模型就会失效。本篇文章用了一个吸引眼球的标题:休谟说,所有量化模型都是过度优化。更准确地说,所有量化模型都面临这过度优化和失效的可能。

当然不仅仅是量化投资,休谟问题直接动摇了归纳方法,动摇了作为近代哲学关键分支的经验论,甚至直接动摇了初生的科学和科学方法。

6. 总结

首先,获取知识的主要方法有演绎和归纳。

其次,演绎出的量化模型要么脱离实际,要么因为众所周知而不能持续盈利。归纳是量化投资的主要方法。

最后,但是归纳面临着休谟问题,导致所有的量化策略都面临着失效的风险。

不要急,哲学家前仆后继来解决休谟问题,敬请期待下一篇:

量化投资的哲学基础4:IBE告诉你怎样避免过度优化