因子溢价与因子择时：一个世纪的数据验证

由crisvalentine创建，最终由crisvalentine更新于2023-06-01 14:28 被浏览 101 用户

摘要

文献来源： Ilmanen A S, Israel R, Moskowitz T J, et al. Factor Premia and Factor Timing: A Century of Evidence [J]. SSRN Electronic Journal, 2019 .

推荐原因：本文利用超过100年的样本数据在六个大类资产中分析了四类主要因子的溢价——价值(value)、动量(momentum)、利差(carry)和防御(defensive)。首先，我们利用大量的样本外数据在各类资产中验证了这些因子溢价的存在性。同时，我们发现样本外数据中溢价有30%的下降，我们认为更有可能与过拟合而不是知情交易有关。然后，为了研究溢价的可能来源，我们采用了近50年的全球经济事件进行分析，发现溢价与宏观风险，流动性，情绪，崩盘风险都没有显著的联系，最后，我们发现了因子溢价有显著的时序变化，在限定的经济环境中构建择时模型，对因子有一定的预测效果，但是，一旦考虑到数据滞后和交易成本，择时策略的收益会受到一定影响。本文印证了，==时序风险溢价模型对解释因子收益来源具有重要意义==。

{w:100}{w:100}

引言

本文利用超过100年的样本数据在六个大类资产中分析了四类主要因子的溢价——价值(value)、动量(momentum)、利差(carry)和防御(defensive)。首先，我们利用大量的样本外数据在各类资产中验证了这些因子溢价的存在性。同时，我们发现样本外数据中溢价有30%的下降，我们认为更有可能与过拟合而不是知情交易有关。然后，为了研究溢价的可能来源，我们采用了近50年的全球经济事件进行分析，发现溢价与宏观风险，流动性，情绪，崩盘风险都没有显著的联系。最后，我们发现了因子溢价有显著的时序变化，在择时模型中添加经济环境限制后，会呈现一定的可预测性，但是，一旦考虑到数据滞后和交易成本，择时策略的收益会受到一定影响。本文印证了，时序风险溢价模型对解释因子收益来源具有重要意义。

文献综述

资产定价的实证研究发现了许多可预测收益的因子。然而，关于因子的有效性，收益的来源以及它们随时间变化，仍然存在很多争论。我们使用时间序列较长(几乎一个世纪)的数据集，研究了适用于六种不同资产类别的四个主要因子，为这些问题提供新的思路。我们首先从大量样本数据中证实这些因子溢价的存在。其次，我们基于风险的模型和行为模型研究了这些溢价的来源。最后，我们研究了因子溢价的时间变化以及该变化是否可预测。

样本期越长越广，在解决这些问题上就越有优势。首先，为了检验溢价的存在和溢价的高低，我们进行了更有力的检验，检验数据挖掘是否夸大了溢价，以及套利活动是否已改变了溢价效应。其次，更丰富的样本包含了更多的经济冲击事件，包括宏观经济，流动性，市场情绪和整个市场的崩溃事件，这些事件提供了新的数据来检验有关溢价的理论。第三，更长的样本期为检验因子溢价提供了更有力的环境。这些结果为跨市场和时间的资产价格变化提供了新的证据。

我们研究了在多种资产类别中均适用的四个因子，即价值，动量，利差和防御性。尽管针对美国股票市场，相关文献已经发现了数百种特征或因子，但由于缺乏统计支持和稳健的样本外验证受到质疑，我们关注的少数几个因子具有很强的样本内和样本外验证，并适用于其他市场和资产类别。但是，即使是这少数的几个因子，对于它们的有效性，收益的经济学来源以及时序变化仍存在大量争论。我们除了提供关于这些争论的样本外实证结果，还通过资产定价理论来解释结果，以检验解释这些因子溢价来源的不同理论：

1.过拟合：我们检验了2种过拟合。第一种，即完全虚假的数据挖掘，即因子溢价是虚假的，在样本外数据（其他时间段，其他资产类别）中会完全消失；第二种，因子溢价是存在的但在样本中被夸大了。

2.行为金融学和有限套利：如果是投资者的行为偏差导致了因子的超额收益，那么随着时间，套利行为会影响因子的有效性、一个直观的解释就是，因子被发现和公开后，如果资本力量追求因子的收益，那么因子的溢价就会逐渐下降，此外不同因子和不同资产间的相关性也会上升。此外，根据上述理论，因子溢价和相关性也会随着投资者情绪和套利成本的代理变量（如波动和流动风险）的变化而变化。

3.理性风险理论，有以下三种分类：

a:无条件风险溢价模型，因子包含了无条件风险折现因子（sdf）的信息，在这种情况下，因子在样本内外的表现应当没有显著的差异，且相关性结构稳定，收益的预测能力不随时间变化。

b:随时间变化的风险溢价模型：模型包含了条件sdf的信息，这一类模型表明因子的风险溢价随着时间有显著的变化，因子收益的时间序列可能是可预测的，且更容易被基于价格的指标发现。

c:特定的条件和非条件模型：这一类模型具体指出了与这些因子相关的风险类型，例如基于消费的，基于生产的，宏观经济的等。在某些情况下，我们可以找到这些风险的合理的代理变量并利用我们更长更丰富的样本去检验这些模型，通过同一种因子在不同资产类别中的应用，我们研究了单一的资产定价框架是否可适用于所有的资产市场。

我们首先在6类资产中确认了价值，动量，价差，防御这四类因子溢价的存在并检验了溢价水平的高低。我们把每个因子的样本期分为三段：原始样本期（发现因子的样本期），前样本期（因子被发现并公开前的样本期），后样本期（因子被发现之后）。我们的分析与前人相比有一个最重要的补充，进行了在前样本期的验证，这一段时期是因子被发现之前，针对该因子的套利交易几乎不存在。通过比较每个因子在前样本期与后样本期的表现，我们可以判断知情交易，套利活动对因子溢价的影响；而通过比较非原始样本期（前样本期，后样本期）与原始样本期的表现，我们可以判断数据挖掘与过拟合对溢价的影响。

我们发现这些因子的样本外表现要低三分之一左右，这与Mclean和Pontiff（2016）在更短的样本期内对美国股票的发现相一致。但是，我们发现因子在原始资产类别（因子被发现的资产类别）中的表现与“样本外”资产类别中的表现没有显着差异。尽管此证据表明存在一些过拟合现象，但在样本外和其他资产类别中存在因子溢价的事实表明不能完全将数据挖掘作为解释。比较先样本和后样本期的结果，我们发现没有证据表明套利活动减弱了溢价。

我们还从样本中确认因子在各个资产类别之间的表现略呈正相关，这些相关性不会随时间有显著变化，这进一步表明套利并未影响这些因子，也说明这些市场在一个世纪前就没有完全分割开。

样本期更长，资产类别更丰富的数据也为我们衡量经济冲击事件的影响提供了机会，我们检验了宏观经济变量（涉及经济周期，经济增长，利率，政治风险，波动风险，下行风险等），市场流动性指标，投资者情绪对因子溢价的影响。额外50年的数据有利于识别低频经济事件的影响，丰富的资产类型帮助我们消除了特定单个资产带来的噪音。尽管拥有这些优势，我们依然没有发现资产定价因子对经济事件有显著的风险暴露。我们研究的多空因子溢价，相比于资产本身的溢价，对宏观经济条件更不敏感。

最后我们利用数据去更好的捕捉因子的条件风险溢价。因子溢价的时序变化很难预测，因此，对因子择时的有效性存在争议。尽管条件风险溢价的存在不能说明因子收益的可预测性，但反过来却是正确的，因子溢价时间序列的可预测性表明条件风险溢价的存在，我们的研究关注了各种择时信号和方法。由于同一种非条件因子溢价在所有资产类别中都存在，所以研究针对同一因子的择时策略是否在所有资产类别中适用将相当有意义。由于目前的研究集中于美国股票市场，因此，我们的数据提供了因子择时的样本外验证。

我们利用可行的因子择时交易策略研究了针对6类资产，4种因子的19种择时方法和12个择时信号。这些策略可以让我们将所有择时模型的的收益率在同一水平上进行比较，同时评价相对于静态因子投资策略的改善效果。

我们发现因子溢价随时间有显著变化，但因子择时策略的效果薄弱且不一致。因子择时效果最好的策略是基于估值差和反向波动率。我们进一步发现给择时模型施加经济环境限制提高了样本外的可预测性，但结果在不同资产类别，不同因子上不一致，这使得我们质疑结果的稳健性。而对于基于动量、宏观经济变量、市场波动的择时策略，我们的实证支持更弱。我们还发现，择时策略会增加对潜在静态因子的暴露，当我们考虑到这一点，策略的实际表现将会降低。最后我们发现，择时策略会增加换手率和交易成本，导致净收益降低。

本文利用一个世纪的数据在六种资产中进行了验证，指出了因子溢价在样本外的稳健性，发现这些因子对宏观经济的风险暴露有限，随时间有显著的变化（尽管在实际中很难捕捉）。

后文的组织结构如下：第一部分描述了数据情况和因子构建。第二部分利用更长更丰富的样本验证了因子溢价的存在，衡量了溢价水平的高低，并检验了数据挖掘和知情交易（套利行为）对因子溢价的影响。第三部分检验了理论中提出的关于因子溢价的潜在来源。第四部分利用因子择时模型，信号分析了因子收益率的时间序列变化。第五部分将上述结果与资产定价理论进行关联，给出结论。

数据与因子构建

数据

我们收集的资产收益和经济基本数据可以追溯到1877年2月，尽管大多数数据都始于1920年代。我们的主要数据来源来自全球金融数据，并由Bloomberg和DataStream进行了补充。数据涵盖股票指数，政府债券，货币和商品。我们还从CRSP提取了近一个世纪的美国个股收益率和自1984年开始的21个国际市场的个股收益数据。我们的样本包含来自43个国家/地区的股票指数，来自26个国家/地区的政府债券，44个汇率和40种商品，其中许多因子收益提供了80多年的时间序列。

因子构建

价值因子

我们使用最简单的指标来构建因子。对于个股，我们使用账面市值比；对于全球股票指数，我们使用十年期循环调整市盈率CAPE(指数成分股的市值加权市盈率)；对于全球债券，我们使用10年期实际收益率（名义收益率和预期通胀的差值）；对于货币，使用购买力平价（PPP）汇率的偏差；对于大宗商品，使用5年现货价格变动的负数。

动量因子

我们在各资产类别中使用统一的衡量指标，过去12个月的累计现金超额收益，同时我们跳过了最近一个月的收益率以避免短期反转的影响。

利差因子

我们将利差定义为假设市场条件不变的情况下，资产的预期收益率。对于股票指数，以期货近月合约对现货的贴水来衡量，因为这一数据1990年前不可得，我们采用超额股息收益率来衡量1990年前的数据；对于货币，利差等于两国短期利率差；对于国债，等于10年期收益率减去3月期利率；对于大宗商品，以假设期货曲线没有变化的情况下，持有期货合约的收益来计算，我们通过最快到期和下一个最快到期合约的价格变化百分比来衡量。

防御因子

防御因子已被广泛研究，用于做多低波动率，低beta的证券。我们使用简单的衡量指标，即资产相对于本地市场指数的beta值。对于全球股票指数和债券，分别基于资产收益率对等权所有国家的指数或债券的组合的36个月滚动回归来估计beta；对于货币，我们没有构建防御因子因为没有可用的市场指数；对于大宗商品我们也没有构建防御因子因为不同的大宗商品之间并不互相关联因此不能使用统一的市场指数。

因子组合构建

我们使用上述的价值，动量，利差因子为每个资产类别构建了0成本的多空投资组合。利用防御因子构建了beta固定的投资组合（并非0成本）。

{w:100}{w:100} 本才采用等风险法对不同资产类别的投资进行组合，即将每个资产类别的波动率倒数作为权重来对不同的资产类别进行组合，这样，我们投资组合的收益就不会被一种资产类别影响。

因子溢价的存在性和溢价水平

下图按资产类别列出过去一个世纪因子投资组合的收益。前四列展示每个因子在每类资产中的年平均值，标准差，夏普比率和t统计量。前四行报告汇总了所有资产类别的结果。价值，动量，利差和防御的夏普比率分别为0.62、0.67、0.84和0.78。平均收益率的t统计量拒绝这些因子溢价为零。第五行报告包含所有资产类别的多因子投资组合的结果。夏普比率增加到了1.59，t统计量为14.72，这表明通过结合四类因子可以带来较大的多元化收益。

我们使用了之前研究中未曾采用的另外半个世纪的数据来检验溢价的稳定性，降低了数据挖掘的可能性，此外，t统计量高达14.7，这说明跨资产的因子溢价存在的证据是很充分的。

因子溢价中数据挖掘和知情交易（套利活动）的检验

我们利用我们样本期更长，资产种类更丰富的数据集来研究数据挖掘和套利行为对因子溢价的潜在影响。

样本内与样本外（前样本期，后样本期）对比验证

我们拥有的过去一个世纪的数据使得我们可以研究前样本期的数据，也就是因子被发现的原始样本期之前的数据，这一数据对我们区别数据挖掘和知情交易（套利活动）非常有帮助因为原始样本期之前，因子没有被交易者所了解。首先，通过比较前样本期和原始样本期，我们可以检验过拟合的影响。其次，比较后样本期和原始样本期，我们可以同时了解数据挖掘和知情交易的影响；而比较前样本期和后样本期，我们可以了解单纯的套利行为对因子的影响（都是样本外数据，没有数据挖掘的影响）。当然，由于前样本期的数据质量较差，结果会差于后样本期，这是与套利行为的影响相反的。

作为另外一种形式的样本外检验，我们检验了因子在被发现时所使用的标的资产和在其他资产类型上的表现差异。同样地，在其他资产类别上，我们也把数据划分为了三段，图1-图5展示了各个样本期上，每个因子在各个资产类别上的夏普比率。

价值因子检验结果

我们使用Fama和French(1992)的样本期1963.7-1990.7作为股票的原始样本期。对于其他资产类别，我们采用了同样的划分日期。图1展示了价值因子测试结果。

{w:100}{w:100} 在原始资产类别（美国股票）中，价值因子在原始样本期中的表现优于样本外，这符合过拟合偏差的结果。但是，夏普比率在前样本期与后样本期中都显著为正说明价值因子的溢价并非完全由数据挖掘产生。而在前样本期中的表现优于后样本期的结果也与知情交易（套利行为）降低因子溢价的理论一致。但是在其他资产类别中，结果且并不相同。对于国际股票，后样本期的夏普比率是原始样本期的几乎2倍，由于国际股票数据始于1984年，因此没有前样本期数据；对于大宗商品，债券，股票指数，原始样本期上的表现都优于前样本期和后样本期，但是后样本期上的表现显著优于前样本期。

我们在所有资产类别中检验原始样本期的夏普比率和样本外的夏普比率是否相等，结果为拒绝（p值0.048）；随后我们又检验了2段样本外时期（前样本期，后样本期）上的夏普普比率是否相等，结果是接受（p值0.924），这表明因子在前样本期与后样本期上的表现没有差异，这与套利行为降低因子溢价的理论不一致。

综合所有资产类别，价值因子在原始样本期，前样本期，后样本期上的夏普比率分别为1.0,0.3,0.75。这一结果与原始样本期上存在过拟合的理论一致而与套利行为降低因子溢价不一致。我们还将其他资产类别上的夏普比率与美国股票上的夏普比率进行对比，发现其他资产类别上的表现与美股高24%，这提供了另外一种形式的样本外验证，说明价值因子的溢价不仅仅只存在于美股中。

动量因子检验结果

我们使用Jegadeesh and Titman (1993)的样本期1964.1-1989.12作为股票的原始样本期。对于其他资产类别，我们采用了同样的划分日期。图2中展示了动量因子测试结果。

我们发现因子溢价在样本外显著，说明动量因子溢价不是纯粹的巧合；但是样本外的表现比原始样本期弱，这与过拟合偏差一致，但不是完全的数据挖掘。然而，对于动量因子，我们没能拒绝样本内与样本外表现一致的原假设(p值0.160)。我们也没有发现动量因子在后样本期上比前样本期弱的证据，这与套利行为降低动量因子表现的理论相矛盾。我们在其他资产类别中也有如上相似的规律。其他资产类别的收益约为美股（发现动量因子的原始资产类别）的60%。

图片{w:100}{w:100}

{w:100}{w:100}

利差因子检验结果

利差因子源于Meese and Rogoff (1983) and Fama (1984)对货币的研究。我们定义1973-1982为原始样本期。这意味着货币没有前样本期因为1972年及以前的汇率由布雷顿森林体系构建。图3中展示了利差因子测试结果。

我们发现后样本期的表现优于原始样本期，这表明数据挖掘或者套利行为都没有影响样本外的表现。而在其他资产类别上，前样本期与后样本期上利差因子的表现约为原始样本期的一半，这与过拟合的理论一致。利差因子在样本内和样本外表现是否相同的检验结果为拒绝（p值0.004），然而前样本期和后样本期的表现没有差异（p值0.951），这与套利降低因子表现的理论不一致。利差因子在货币以外的资产上的表现要比货币高出42.4%，表明利差因子的溢价不局限于货币中。

{w:100}{w:100}

防御因子检验结果

Frazzini和Pedersen（2013）构建了我们在研究中使用的betting-against-beta（BAB）因子，因此，我们将原始样本期设为1960-2009。图4中展示了防御因子测试结果

防御因子在前样本期和后样本期中的表现都优于原始样本期，这与过拟合理论和套利降低因子表现的理论都不一致。此外，因子在后样本期的表现优于前样本期的事实，更进一步说明套利理论的不成立。我们对样本内vs样本外,前样本期vs后样本期的检验中都未能发现显著的差异。但是，防御因子策略在美国个股中的表现（发现因子的原始资产类别）比其他资产类别更好。

{w:100}{w:100}

多因子组合检验结果

对于多因子组合的原始样本期的选取，需要对四类因子都适用，我们最终选择1960-1990为原始样本期，这样可以包含四类因子的大部分原始样本期。图5中展示了多因子测试结果。

{w:100}{w:100} 多因子的结果与之前的结果相呼应，前样本期的夏普比率约为原始样本期夏普比率的64％，而后样本期的夏普比率约为原始样本期夏普比率的69％。统计检验表明样本外的表现会降低（p值0.009），而前样本期和后样本期的表现没有差别（p值为1）。

总的来说，我们发现因子溢价存在并且在样本外是稳健的，因此不是数据挖掘的结果。但是，过拟合的偏差可能会导致这些因子的样本外表现下降约30％，这与Mclean和Pontiff（2016）在只针对美股的分析中获得的结果相似。与Mclean和Pontiff（2016）相反，我们发现几乎没有证据表明这些因子的有效性在公开后受到套利行为的影响。如果有的话，这些因子在后样本期的表现要比前样本期更优，有效性肯定不会下降。

因子溢价的来源

在排除了纯粹的数据挖掘作为解释后，我们研究了基于风险和行为的理论来探究溢价的来源。

共同变化

我们研究不同因子以及不同资产类别间的共同变化。下图展示了同一个因子在不同资产类别之间的相关性（通过月收益率得到）。第一列展示了每个资产类别上的价值因子策略与其他资产类别上的价值因子策略的相关性，平均为0.15。第二列则是动量因子策略的结果，资产间的平均相关性为0.27.。对于利差因子，资产间的相关性弱很多；而对于防御因子，相关性为0.19，这是前人文献中没有涉及过的。

{w:100}{w:100} 上图展示了不同因子在同一资产内的相关性。对于美股，价值和动量因子表现出强的负相关性（相关性-0.68），价值和防御因子呈弱的负相关性（-0.17），动量和防御因子呈正相关性（0.31），对于国际股票，结果也类似。对于非股票类型资产，价值和动量之间存在一致的负相关关系（-0.51），动量和防御因子在每个资产中呈一致正相关，而价值和防御因子在每个资产中呈负相关，但相关系数较小。利差因子与价值因子在股指，债券，货币中呈正相关，而在大宗商品中呈负相关。利差和动量因子在除了大宗商品外的资产类别中都没有显著的相关性（在大宗商品相关性0.42）。

{w:100}{w:100} 上图中展示了在同一类资产中，每个因子的收益率与其他因子收益率的时间序列回归结果以及同一种因子，在每个资产类别中的收益率与其他资产类别中的收益率的时间序列回归结果。我们也纳入了股票，债券，大宗商品的市场指数。我们发现同一因子在每个资产类别与其他资产类别的回归中的系数都为正，说明每个因子都存在共同变化，然而，在控制同一资产类别中的其他因子，其他资产类别中的相同因子以及股票，债券和商品的市场投资组合之后，我们发现每个资产类别几乎每个因子都具有显著的正alpha，表明此共同变化仅捕获每个资产类别中每个因子的部分溢价。

套利行为

尽管我们之前的研究没有发现可以支撑套利行为影响因子表现这一理论的证据，我们通过观察同一因子在不同资产间，不同因子在相同资产间的相关性是否在因子被发现后随时间变化进一步检验该理论。Lou and Polk (2015)的研究表明因子被发现后会有更高的相关性。此外，相关系数的变化也能检验数据挖掘的存在，Linnainmaa and Roberts (2016)的研究表明数据挖掘的偏差会降低样本中因子的相关性。

我们在三段时期（前，原始，后样本期）内检验相关性，过拟合表明样本外的不同因子间有更高的相关性，而同一因子在不同资产间有更低的相关性。套利行为表明因子被发现后，不同因子间的相关性更强，同一因子在不同资产间的相关性也更强。

下图中展现了不同因子间相关系数随时间段的变化，可以发现在三段时期内，相关性的变化很小，在后样本期的相关性还略有下降。底部的图排除了货币和大宗商品因为他们的样本期过短，会限制我们的分析。结果是同样的，没有证据表明因子间的相关性在样本外更高，也没有证据表明因子被发现后相关性变高。

{w:100}{w:100} 下图中检验了同一因子在不同资产间的相关性，柱1是价值因子不同其他资产类别的相关性均值，可以看到相关性均值在前样本期最低，在样本期内较高，在后样本期最高。动量因子也有同样的规律，而利差，防御因子没有。这一结果表明由于针对动量和价值因子的交易活动更加积极或者市场一体化程度升高，这两个因子在不同资产间的相关性随着时间上升。但是，这个结果是有误导性的，因为国际股票和货币没有前样本期，而美股和国际股票高度相关，导致前样本期的的相关性相对于样本期，后样本期被低估。剔除了货币和国际股票后，底部的图表可见价值，利差，防御因子的相关性都不再变高，只有动量因子在资产间的相关性在后样本期略有升高，但差别很小。结合了四类因子的多因子组合在资产间的相关性也没有显示出显著的差别，这说明套利行为没有对后样本期的相关性产生影响。

{w:100}{w:100}

经济风险

许多资产定价理论试图通过系统风险或代表经济中不断变化的投资机会的状态变量来衡量这种共同变化（Merton（1973））。我们研究因子收益与代表了经济活动的各种变量的关系，从而检验关于因子溢价的理论。利用我们时间跨度更长，资产种类更丰富的样本，我们研究了超过50年间发生的经济事件，以更好地识别这些关系，资产类别更丰富，还有助于减少影响这些关系的噪声。

因子对经济活动的风险暴露

下图展示了每个因子的收益率与各种经济指标的时间序列回归结果。面板A展示了t时刻的因子收益率和经济变量的同期回归的结果。第一部分的变量包括了流动性风险指标，情绪指标以及股票市场波动指标（各个国家市场指数等权加权，基于36个月估计得到的实际波动率）。其中，流动性指标可以了解对套利行为的约束，情绪指标可以了解投资者行为和投资积极性，市场波动指标可以了解套利成本以及市场风险与不确定性。

第二部分的变量则与宏观经济情况相关，以便将因子收益与宏观经济模型联系起来。我们直观上可以知道经济增长，通货膨胀对股票债券的总体市场有影响。但是对市场中性的一些因子策略，例如价值，动量，利差呢？由于这些因子之间呈现低相关甚至负相关性，他们是暴露在不同的风险下的。我们在没有很强的理论指导的情况下对因子与宏观经济事件的关系进行研究，尽管这会导致数据挖掘和拟合噪声的风险。

我们使用全球GDP增长率，全球CPI通胀率，尾部风险指标，地缘政治指标以及三个经济周期指标。具体地，我们利用每季度GDP的同比增长率和每季度GDP同比增长率的变化把时期划分为4段：收缩期（GDP增长率为负且增长率在下降）复苏期(增长率为负但增长率为上升），放缓期（增长率为正但增长率在下降）以及扩张期（增长率为正且增长率在上升）。为了避免状态的频繁切换，只有当增长率或增长率的变化达到阈值（过去十年的1倍标准差）时才切换。

宏观变量的一个重要问题是关于时间，宏观变量的公布具有滞后性，例如第二季度的GDO数据在七月（第三季度）才会公布，这就产生了一个问题，我们应该用第二季度的收益率数据还是第三季度的收益率数据与第二季度的宏观数据匹配。前者是第一种方法，衡量收益率与实际经济活动的关系，后者是第二种方法，衡量收益率与宏观经济信息的公开之间的关系。下图分别展示了2种方法的的结果。

下图面板A展示了第一种方法的结果，价值因子与流动性风险，情绪指标，经济放缓指标呈显著正相关，表明流动性风险高，情绪指标为正，经济放缓时期，价值因子收益更高，而其他指标对价值因子没有显著影响。对于动量因子，除了经济放缓变量有显著的负回归系数外，其他变量均不显著。类似地，利差因子与任何变量都没有显著关系，其中显著水平最高的是尾部风险变量（t值-1.92）。防御因子与价值因子类似，在流动性风险高，情绪高涨的时候收益率更高，但是在通胀率高，经济处于放缓期和扩张期时收益较低。总体而言，没有太多证据表明因子收益受经济变量影响。模型R方都很小且大部分系数都不显著。如果采用多重检验的标准，没有宏观变量是显著的。

下图面板B展示了第二种方法（将宏观变量滞后一个周期）的回归结果以研究宏观经济信息的公开对因子收益的影响。我们发现宏观变量对收益率的影响比第一种方法下更弱。

尽管我们使用了时间跨度更长，资产种类更丰富的数据，我们没有发现因子对宏观经济活动或信息有显著的暴露。

{w:100}{w:100}

不同经济环境下的相关性

我们研究了不同经济环境对因子相关性的影响。下图中我们分别计算了在不同经济环境下的因子相关性。不同的经济环境如下

全球股票月收益（MSCI指数）最好和最差的20%的月份
全球债券月收益率（巴克莱银行综合债券指数）最好和最差的20%的月份
包括股票，债券和商品在内的所有资产类别的波动率加权组合的收益率最好和最差20％的月份
股票市场波动率（过去36个月的实际波动率）的最高和最低20％的月份
使用NBER的经济周期定义应用全球经济衰退和扩张期间

第一个图给出了不同因子在同一资产类别中的相关性的平均值，这表明不同经济环境下，相关性变化很小，第二个图给出了同一因子在不同资产类别上的相关性的平均值，我们也没有发现相关性会随经济环境变化的证据，只有一个例外，在市场波动率很低的时候（最低的20%），同一因子在不同资产类别上的相关性会很低。

{w:100}{w:100}

因子溢价的时序变化与因子择时

我们的长时间跨度，资产种类更丰富的样本的另一个优点是，它可以更有效的检验因子溢价的时序变化，并评价因子择时的有效性。我们通过因子择时策略来检验因子溢子的存在。我们的研究主要有2个动机。首先，从理论角度来看，因子择时可以确定因子的条件预期收益；其次，最优化择时投资组合可以使我们了解条件随机贴现因子。（Haddad，Kozak和Santosh（2018））

由于样本期较短和噪声问题，前人研究中因子择时的有效性和条件因子溢价的识别存在争议，我们额外50年的数据样本和更丰富的资产类别提供了更有力的检验环境。由于非条件因子溢价在美股以外的资产类别中也存在，我们可以进一步研究其他资产类别的条件因子溢价是否相似以及是否存在适用于所有资产类别的统一的条件溢价框架。

我们通过一系列的因子择时信号和方法来研究条件因子溢价和因子择时策略。典型的择时研究分为3类。第一类，单因子在单一资产中使用单个信号进行择时。第二类，多因子在单一资产中使用一个或多个信号进行择时，第三类，单因子在多个资产中使用相关信号进行择时。我们在多个资产中检验了多个因子并试图把各个择时结果进行总结。

为了评价因子择时的效果并比较不同的择时信号和方法，我们采用同一种策略来评价所有的择时模型。这样做可以完成多个目标，首先，可以对所有择时信号和方法基于样本外的收益表现来进行比较，其次，策略的收益可以衡量择时带来的经济收益，第三，择时策略的收益可以帮助我们衡量相对于静态的因子投资策略，择时带来的边际收益，最后，聚焦于择时策略的收益率可以避免择时的其他衡量指标例如R方带来的统计学问题。

估值价差择时

我们从最简单和最著名的择时指标：估值价差开始。估值比率常被用来预测股票市场的收益，基本思想是寻找一个估值指标来判断市场组合是“便宜“还是“昂贵”。常用的指标是账面市值比或者CAPE。

估值的概念可以应用到因子中。基于因子的组合一般会做多一些资产并做空一部分资产。我们将多头组资产和空头组资产的估值分别求和。和大部分文献的做法一样，我们选择2组资产估值的比率或者估值差的log，而不是直接取估值的差作为估值价差指标。理论角度，这样做没有优势，但是可以减少价格上升带来的影响。当然，当分母很小或者为负时会产生问题，因此，对于个股，我们采用估值的比率作为指标而对于非股票类资产，则使用估值的差作为指标因为小估值或者负估值的情况经常发生。

如果因子的估值能够对因子溢价的变化起预测作用，那么我们预期估值和未来收益呈正相关。

我们在样本期1926-2018上利用估值价差在美股上对价值因子进行择时，然后拓展到其他因子（动量，利差，防御），最后将择时策略应用在其他资产类别上。

我们先对估值价差择时进行简单的应用。在计算因子的估值价差后，在时间序列上进行标准化（均值为0，方差为1），得到Z-score值。正的Z-score值代表在该因子上分配正的权重，负的Z-score值代表分配负的权重，Z-score的绝对值代表买入或卖出的资金量。Z-score衡量了相对于历史，因子是便宜还是昂贵。为了减少极端值的影响，Z-score的上下限设置为+2，-2。同时，为了避免引入未来信息，我们采用的扩展的时间窗口，即Z-score的估计基于样本期开始到t-1时刻的数据（至少需要包含十年的数据），并应用到t时刻的因子收益率。

美股的因子择时

下图第一部分给出了对美股因子应用估值价差择时的结果。为了对比，在第一列给出了静态因子策略的年化夏普比率和平均收益率的t统计量，第二列则给出了对每个因子应用择时策略（Z-score法）的年化夏普比率。美股价值因子应用该择时策略的年化夏普比率仅为0.17，t统计量为1.56，说明价值因子的估值价差择时没有产生显著收益。

Asness，Chandra，Ilmanen和Israel(2017)以及Asness，Liew，Pedersen和Thapar(2018)表明，估值价差择时策略中也潜在用到了静态价值策略。估值价差策略会在估值价差扩大时超配该因子而在价差缩小时减配该因子，因此会增加对静态价值因子的暴露。为了考虑这一点，我们将每个因子的估值价差策略的收益率与静态价值因子进行单变量回归并计算alpha。为了与其他列的夏普比率对比，我们列出了alpha的年化信息比率。信息比率可以便于在同一尺度上对择时模型进行比较，是更好的评价择时模型的指标。

如第三列所示，价值因子的价差择时策略的信息比率为负且不显著。估值价差择时对静态价值因子有正向暴露，因此当我们考虑到静态价值因子的影响，纯粹的择时带来的收益会下降。最后一列给出了考虑到所有静态因子的影响后的信息比率，代表剔除了所有非条件因子收益后，纯粹的择时带来的收益，可以发现择时的alpha统计学上不能拒绝为0。

图中剩下的部分给出了对动量，防御因子应用估值价差择时的结果。动量因子的择时产生了显著为正的夏普比率（0.25）和2.3的t统计量。将择时收益与静态动量因子回归，产生了甚至更高的收益，0.59的信息比率和5.31的t统计量，这说明动量因子的估值价差择时策略在剔除了静态动量因子的暴露后有更好的收益。但是，如果将择时收益对所有静态因子作回归，信息比率下降到0.4，这是由于择时策略增加了对静态价值因子的暴露造成的。对于防御因子，我们发现了证实因子择时有效性的强力证据，夏普比率为0.75，t统计量6.62，在对静态因子进行单变量和多变量回归后，alpha的信息比率分别为0.47,0.43，t统计量分别为4.16和3.77。最后一行给出了对多因子组合使用估值价差择时的结果，可以看出择时策略有显著的收益（对所有静态因子回归后的信息比率为0.33，t统计量3.04）

综合以上结果，价值因子的估值价差择时没有显著效果，而动量因子，防御因子效果显著，但是以上结果只局限于美股，下面我们研究在其他资产类别中的表现。

{w:100}{w:100}

其他资产类别上的因子择时

我们在各类资产类别上利用各自的估值指标进行估值价差择时。对于国际股票，择时策略相对静态策略产生了负收益。对于全球股票指数，我们没有发现任何因子的择时策略有效的证据；对于大宗商品，结果是复杂的，对于大宗商品的价值因子，择时策略产生了为正且显著的收益，对于动量因子则产生了不显著的收益，对于利差因子产生了为负的收益，而多因子则没有产生收益；对于全球债券，各个因子的估值价差择时产生的收益率一致为负；对于货币，只有利差因子产生了显著为正的择时收益。

最后，我们研究了同时标的各类资产的择时策略，我们利用等风险法组合所有资产类别的择时策略，每类资产的权重与它36个月波动率的倒数成比例。当以择时策略的原始收益为指标时，价值，动量，防御因子产生了正收益而利差因子产生了负收益。而当我们考虑了对静态因子的暴露后，只有防御因子产生了显著为正的alpha且收益完全由美股带来。上图最后一行列出了多因子择时策略的结果，利用每类因子的估值价差构建跨资产类别的多因子择时策略，产生了显著为正的收益，即使在考虑了对所有静态因子的暴露后，alpha依然为正且显著，信息比率为0.28，t值2.58。然而，跨资产多因子择时策略的收益完全来自于美股，如下一个面板所示，在剔除了美股后，信息比率和alpha都不再显著。

因此，估值价差择时策略在其他资产类别中的表现不稳健。鉴于股票因子在择时研究中被过度挖掘，我们怀疑因子择时的稳健性。考虑如上结果，我们认为没有支持估值价差择时有效性的证据。

其他择时方法

上图中的结果表明估值价差择时应用在六个资产类别上的结果不佳，但是其中的结果都只使用了Z-score这一种方法。我们现在考虑通过其他方法来利用估值价差的信息来进行择时，例如，可以将因子收益与前一期的估值价差进行回归来检验2者的关系。回归中还可以对系数施加有经济含义的限制。此外，还可以加入近似无套利的条件来提取因子的主成分（PCs）,然后对主成分应用估值价差来择时。在这部分我们以估值价差作为择时信号研究了多种择时方法，而在下一部分将这些方法应用到其他择时型号中。

下图展示了使用19种不同的方法对估值价值进行择时的结果。我们利用每个因子在每类资产上对19种方法都进行了试验，因此产生了500多个择时策略，为了简洁的进行展示，下图中只展示出19种方法在多因子跨资产的择时策略中的结果。下图列出了使用的择时方法（例如Z-score），模型参数估计基于样本内还是样本外，对择时方法施加的限制，策略的原始夏普比率，多变量回归后的alpha信息比率。

下图第一行列出了上文中的Z-ssocre方法的结果以用于对比。第二行列出了同样采用Z-score方法但基于全样本估计的结果。而接下来这部分的结果是使用了回归法来确定条件因子收益率与估值价差的关系。首先，我们利用拓展的时间窗口的数据将t时刻的因子收益率与t-1时刻的估值价差进行回归，得到的回归系数与t时刻的估值价差作为择时信号。拓展的时间窗口保证了我们的参数估计是样本外的。我们没有对回归系数施加限制，这就允许系数随不同因子，不同资产类别而变化，也允许系数的符号为负。理论上，系数符号应该为正因为估值价差与未来收益率正相关。而在接下的方法中，我们将对系数符号限制为正以与理论一致。

第三行列出了没有施加符号限制，样本外估计，的策略结果。策略的原始夏普比率为1.36，考虑对静态因子的暴露后， alpha信息比率为0.28。

第四行采取了同样的方法，但是将回归系数进行了标准化从而转化为了Z-score，转化过程同样采用拓展的时间窗口以保证只使用样本外数据。如下图所示，该策略的夏普比率为0.27，alpha的信息比率为0.29，两者相当接近，说明对回归系数的标准化消除了对静态因子的暴露。

第五行采用了和第四行一样的方法，但把回归系数的Z-score的上下限限制为+2，-2。如图所示，与第四行结果相近，但alpha信息比率略有提高（0.35）。这一提高说明上下限的约束降低了极端值的影响。

第六行对回归系数施加了经济含义的限制，要求系数为正。我们发现这一限制提高了样本外表现，信息比率提高到了0.41。

第七行重复了第五行的方法，但是对回归系数和Z-score的估计应用了全样本的数据，这一试验展示了该择时方法能达到的上限，夏普比率符合预期的升高到了0.42，但是由于基于全样本估计的策略在静态因子上暴露更多，alpha信息比率降低了（0.33）。

接下来的8到12行的结果中，我们要求同一因子在不同资产类别上的回归系数相同，所以估值价差与未来收益率间的关系只能随因子变化而不随资产类别变化。这一限制使择时的收益略微降低，信息比率也有不同程度的下降。

在接下来的13到17行中，我们的限制更加严格，要求回归系数在所有因子，所有资产类别上都相同。这一限制缺少经济学意义，图中的结果也表明这一限制下的择时策略的表现更差。

最后2行我们采用了Haddad, Kozak, and Santosh (2018) 的PCA方法。这一方法在全样本中信息比率为0.45而在样本外仅为0.13，这说明在全样本的策略中引入了大量的未来信息。而且，这一方法在样本外的表现也远远差于回归法。基于此，在下面的研究中，我们聚焦于回归法。

{w:100}{w:100}

其他择时信号

虽然估值价差是文献中最重要的择时信号，但是其他信号也可被用于因子择时。

与估值价差类似，我们可以使用因子的价差来择时。我们计算多头组和空头组的因子平均值，然后求得价差，如果价差较宽，那么因子未来的收益较高，而如果价差较窄，那么因子未来的收益较低。对于价值因子，“因子价差”与之前使用的估值价差相同。对于其他因子，因子价差表示动量因子的动量（等同于因子动量），利差因子的利差以及防御因子的beta差。

我们研究了五年反转（因子过去五年收益率的负数）作为择时信号的效果。此外，我们研究了波动率择时（利用因子标准差的反向指标），经济周期和宏观经济变量择时。我们还研究了利用市场指标（CAPE,VIX）的择时。

总体来说，我们研究了11个择时信号，19种处理方法，20种单因子多空组合和6种多因子跨资产组合，共111926=5434个择时策略。我们研究的目的是检验各自择时方法的稳健性和在不同因子，不同资产类别上的一致性。由于有5434个择时策略，我们构建了Bonferroni 多重检验，将5%的阈值调整为0.09%。此外，我们还进行了全模型择时，同时使用了11个择时信号。我们将重点放在图中的（1），（5），（6），（7），（10），（11）6种方法。（1）是简单的Z-score法，（5）是回归法，允许回归系数随不同因子，不同资产变化，要求参数基于样本外估计。（6）与（5）类似，但对回归系数施加了符号限制。对于估值价差，要求非负，对于其他择时信号，限制也都受经济理论影响，对于因子动量，因子价差，反向波动率和方差，CAPE，都要求系数为正。五年反转和VIX要求系数为负，对于经济周期和宏观经济变量则没有符号限制，方法（7）与方法（5）类似，但用全样本估计参数。（10），（11）与（5），（6）类似，但我们要求同一因子在不同资产类别上的回归系数相同。

下图展示了将11种择时信号，6种方法应用在多因子全资产策略上的结果。

{w:100}{w:100}

因子动量

我们发现因子动量（因子过去12个月的收益率）的择时表现相对较差。简单Z-socre法没有产生显著为正的收益，考虑静态因子暴露后，alpha为负。对因子动量采用其他择时方法，比如使用回归法且不对回归系数进行限制，产生了更多为正的结果尽管alpha依然很小。然而，当我们对回归系数进行限制，要求因子动量与未来收益率正相关，在样本外的表现更差了。重复之前的实验，用19种择时方法对因子动量进行试验，发现没有样本外的因子动量策略产生了正的收益，这使得我们怀疑因子动量作为择时信号的稳健性。

价值和动量择时

我们研究将价值和动量因子组合进行择时是否会产生好的表现，这一想法源于价值和动量因子强烈的负相关关系。Table IA8展示了同时使用估值价差和因子动量进行因子择时的结果，可见，组合后没有很大的提升。组合后的结果比单用因子动量择时要好，但比单用估值价差要差。

因子价差

上图中可知因子价差择时的效果显著弱于估值价差。由于因子价差包括了估值价差，说明其他因子（动量，利差，防御）的价差在择时中作用很小。

五年反转

和估值价差因子类似，五年反转作为择时信号可以产生微弱的正收益。值得注意的是，对于各种择时方法，五年反转因子的样本外择时结果都弱于估值价差，只有在全样本回归中例外（这样容易在样本中过拟合）。

反向波动率和反向方差

我们研究反向波动率和反向方差在六类资产上对夏普比率和信息比率的预测作用，我们利用因子收益的过去36个月数据估计反向波动率和反向方差，然后以这些指标作为择时信号，上图展示了简单Z-score法的结果，产生了显著的alpha，信息比率高于0.50，而回归法则表现不佳，尽管对回归系数施加限制有改善作用。反向波动率择时的效果对方法敏感，在对系数不加以限制时，在样本外会产生负的alpha。

经济周期和宏观经济变量择时

我们使用了上文介绍的经济周期指标：收缩，复苏，扩展，放缓来进行择时。研究存在的困难在于，这些指标与未来收益率的关系是未知的，没有理论指导，而且预测宏观变量非常困难。

由于不知道经济增长对未来收益率的影响方向，我们无法使用Z-score法进行择时，因此我们重点关注回归法，尽管在回归法下我们也无法对回归系数的符号作出明确的限制。由于符号无法限制，方法（5）（6）是等价的，方法（10），（11）也是等价的。上图说明使用这些经济周期指标还是产生了一些择时alpha。如果使用全样本回归，效果会更好，而这进一步强调了使用到样本内参数进行择时带来的过拟合风险。事实上，基于样本内估计的系数是不显著的，而用在择时中，效果却看上去很好。

我们也研究了经济增长动量和通胀动量的择时结果，在这里我们同样不知道这些指标对未来收益的影响方向。从结果来看，表现也都不佳。增长动量对收益有微弱的正向预测效果但有一部分效果是由经济周期指标带来的，同时没有任何证据表明通胀动量在样本外对择时有效。考虑到样本内估计的过拟合风险，在样本外测试中，宏观经济变量对因子择时没有效果。

CAPE和VIX

最后2个择时信号，CAPE和VIX是被设计用来描述市场上的变化风险，风险厌恶水平和情绪。如图6所示，CAPE和VIX对因子收益没有产生很强的预测作用，择时的alpha为正，但很小，信息比率低于0.20。在施加了经济含义限制后，效果会略强一点。

我们在图9中展示了所有择时策略的平均值，这是基于不同择时信号，不同方法的择时策略的简单等权平均。平均后的择时结果产生了相对静态因子为正但不显著的alpha，总的来看，施加经济学含义的符号限制提高了样本外表现，说明理论指导能帮助我们避免过拟合。

全模型择时

当每个择时信号对未来收益有一定的预测作用时，把择时信号结合起来将会产生更有效的作用。前文中，我们尝试了将价差估值信号和因子动量组合，但结果不佳，在这一部分我们将所有11种信号组合在一起，上图的最后一部分给出了同时组合所有信号的“全模型“进行择时的结果，对于Z-score方法，对所有资产按11种择时信号的score的平均值排名；对于回归法，对于每个因子，每类资产，我们将因子未来收益率对11个择时信号进行回归，将得到的系数和当前的信号值用于对未来期望收益的预测。在某些方法下，我们同样进行了经济学含义的限制（对符号的限制，对同一因子在不同资产上系数相同的限制）。

我们从全模型中得到了最好的结果，样本外表现产生了高于0.4的信息比率，施加经济含义限制会使效果更好，信息比率达到0.62。最后，使用全样本回归，信息比率达到了1.1，这进一步强调了使用全样本带来的风险。

因子择时的经济学影响

从上述结果可知因子择时在各类资产中的效果存在但是有限，一个开放的问题就是因子择时是否具有经济学意义以及在一个投资组合中加入因子择时是否有意义？我们考虑投资者在样本期上最大化夏普比率时需要将多少因子择时添加到静态的多因子组合中。下图展示了各种择时策略的夏普比率和相对于静态策略的信息比率。我们计算在将择时策略与静态多因子多资产组合结合使用时，择时策略的最佳事后权重以最大化样本内夏普比率，第一行是没有使用择时策略的静态多因子，多资产组合的结果，夏普比率达到了1.64。我们还展示了该组合的年化双边换手率，为4.3，这一指标将交易成本纳入了考虑范围。

下图的其他行给出了其他择时策略的统计指标。我们从在样本内产生了最好表现的策略-全模型择时策略（全样本回归，回归系数无限制）开始，该策略产生了相对于静态因子1.10的信息比率，将该策略与静态多因子投资组合结合后，产生了2.0的夏普比率，其中择时权重的权重为40.2%。这代表了在我们的样本中使用上述研究的择时策略能达到的最好效果。

但是，择时也会带来额外的换手率和交易成本，下图显示择时策略的换手率达到了6.2。一个问题是，这种额外的换手率是否值得？我们没有尝试建立适用于我们研究的所有资产类别的交易成本模型，而是计算能抵消计时策略的所有收益的平衡交易成本（break-even cost）。具体来说，在上述全模型择时策略中，平衡交易成本为为每美元9.8个基点（bps）。因此，只要交易成本低于9.8个Bp,添加择时策略就会增加收益。

下图的下一行给出了全模型择时策略（样本外回归）的结果，可见样本外估计的模型结果要弱很多，夏普比率0.37，信息比率0.41，这一策略只将夏普比率从1.64提高到了1.69，择时策略的最优权重为20%。这一微小的提升却将换手率从4.3增加到了7.9，平衡交易成本只需2.5个Bp就可以消除择时带来的收益，而现实中交易成本一般都超过了这个水平。

下图第四行则在全模型择时中加入了经济环境限制，该择时策略的信息比率为0.62，并将组合的夏普比率提高到了1.79，择时策略的最优权重为27.6%，组合的换手率为6.8。可以看出该模型的优点是在提高了样本外表现的同时没有显著增加换手率，而且5bp的平衡交易成本也接近目前交易中的平均交易成本。

余下的11行展示了各个择时信号的结果。与之前的结果一致，估值价差，反向波动率，经济周期可以提升表现，但他们的最优权重都没有超过全模型，而且，只有在交易成本低于4bp时才能获益。

可以发现，将择时策略加入到多因子投资组合中的效果是微弱的。尽管我们测试了大量的择时策略，方法，信号，我们发现他们在样本外的表现是不一致的且没有可行性。考虑到换手率上升带来的交易成本增加，策略的收益将大大减小。但是从积极的角度，在一些方法中我们还是发现了显著的结果，例如估值价差，反向波动率可以捕捉条件溢价，又比如根据理论对回归系数施加经济学限制可以帮助我识别们因子收益的时序变化。未来的研究或许可以发现提取条件信息更有效的方法亦产生更显著的经济收益。

{w:100}{w:100}

总结

为研究因子收益的溢价的稳健性，我们采用了跨度一个世纪，涉及六个不同资产类别的数据，为进行现有理论的样本外检验以及研究条件因子收益溢价提供了有利条件。我们发现，在过去一个世纪的每个资产类别中，价值，动量，利差和防御性的收益溢价都是显著的。但是，溢价在发现它们的原始样本期显得更强，这与潜在的过拟合一致。我们发现没有证据表明因子溢价被发现后受到知情套利交易的影响。在过去的一个世纪中，因子随各种资产类别，因子种类的共同变化是稳定的。为了理解这种变化并将其与资产定价理论联系起来，我们研究了一个世纪的全球经济信息和经济冲击，但未能找到有关宏观经济，经济周期，尾部风险或情绪驱动因子溢价的可靠或一致的证据。最后，我们分析了各种不同方法和信号的择时模型，并发现了估值价差和反向波动率捕获条件因子溢价的能力。但是，一旦我们考虑对静态因子的暴露和诸如实时信息和交易成本之类的问题，结果就不如人意。

我们的结果揭示了在六类资产类别中因子的表现，并提供了大量的样本外检验，既挑战也支持了各种理论，并为新的资产定价模型奠定了基础。

因子溢价与因子择时：一个世纪的数据验证

摘要

引言

文献综述

数据与因子构建

数据

因子构建

因子溢价的存在性和溢价水平

因子溢价中数据挖掘和知情交易（套利活动）的检验

因子溢价的来源

共同变化

套利行为

经济风险

因子溢价的时序变化与因子择时

估值价差择时

其他择时方法

其他择时信号

因子择时的经济学影响

总结

标签