MSCI：因子拥挤度分析模型—股票因子策略中的拥挤风险评估

由qxiao创建，最终由bqv93dy2更新于2025-04-12 07:21 被浏览 1734 用户

本文章翻译自MSCI研报《MSCI INTEGRATED FACTOR CROWDING MODEL》下附PDF英文原文

作者：George Bonne, Leon Roisenberg, Roman Kouzmenko, Peter Zangari

时间：2018年6月

摘要

对因子的日益认识和因子投资的日益流行，增加了因子战略中出现拥挤的可能性。因子业绩中偶尔出现显著下降的事件，突显出一种稳健的因子拥挤模型的必要性和潜在价值，这种模型可以提醒投资者注意因子策略中日益拥挤的现象。

我们引入了MSCI综合因子拥挤模型来定量评估因子策略中的拥挤程度。该模型使用一系列度量标准从多个维度检查拥挤程度，并将这些度量标准组合为一个标准的因子拥挤程度度量。机构投资者可以使用该模型来比较某一特定时间点上不同因子之间的拥挤程度，评估一段时间内一个或多个因子的拥挤程度，并深入了解拥挤最重要的驱动因素。

该模型旨在帮助投资者在潜在拥挤或不拥挤的因子中及时做出定位决定。我们使用的指标是基于一个直观的模型，即当太多的资本追求相同的策略时，会产生什么影响。这些指标基于持股、定价和基于回报的信息，包括估值价差、短期息差、成对相关性、相对波动性和因子动量。（The metrics are based on holdings, pricing and return based information, and include valuation spreads, short interest spreads, pairwise correlations, relative volatility and factor momentum.）

我们的研究表明，每个指标都对未来因子的波动性和性能有影响。

我们还发现，在我们的模型中出现拥挤的因子在随后12个月中的因子性能显著下降的频率要比没有出现拥挤的因子高得多(高出7倍以上)。

介绍

一些极端的市场事件，例如1998年长期资本管理公司(Long-Term Capital Management)的倒闭、上世纪90年代末和本世纪初的科技泡沫和破灭、2007年8月的量化宽松(quant)以及2009年金融危机后市场反弹期间动量因子表现的极度下降，都提高了学术界和实务界对过度因子表现的兴趣和认识，以及对过度因子表现的其他驱动因素的认识。这些事件至少在一定程度上是由过多的资本追逐或变现相同的策略——本质上是策略拥挤造成的。

一个相关的问题是策略容量。虽然容量和拥挤都与遵循给定策略的资本数量有关，但我们将容量与拥挤区分开来，因为容量更关心分配的资本水平对策略的总体长期预期风险和回报的影响(Alighanbari和Doole, 2018)，而拥挤则更关心危机动态和策略在尾部事件中的行为。

由于遵循给定策略的资本的绝对数量是很难估计的，大多数拥挤的度量是建立在相对的基础上的。例如，以前的拥挤措施包括:

1、某一组证券相对于其历史或另一参照组有多贵

2、一组证券或基金与其过去的关联度

3、机构持有一组证券的比例与它们的历史或其他参照群体有多大关系

MSCI综合因素拥挤模型建立在我们早期关于拥挤的研究基础上(Bayraktar, 2015a)。大多数关于拥挤度的研究都侧重于从两个角度得出的指标——持有和定价或回报。持有相关的信息可以从机构的监管文件中获得，比如美国证券交易委员会(sec)的13F表格，或者其他公开来源，比如用于做空利息的证券借贷数据。

持仓分析

Gustafson和Halper(2010)使用基于持仓的分析方法，研究了1992-2009年期间33只基金的实际回报率和持仓量之间的相关性，发现实际回报率的滚动相关性存在显著差异，但没有长期趋势。

Chue(2015)研究了共同基金的收益，发现那些表现与平均表现高度相关的表现最好的基金比那些表现与表现较差的基金更有特质或相关性的表现最好的基金表现更差。Chue认为拥挤度可能是导致表现最好、行为类似的“墨守成规”基金业绩随后下滑的原因之一。

Zhong等人(2017)使用共同基金持股数据构建了一个安全级别的共同基金拥挤测度，定义为活跃共同基金持有的股票按平均交易量标准化。他们发现，最不拥挤的股票产生显著的正异常收益，而最拥挤的股票产生负异常收益。

Greenwood和smar(2011)基于共同基金的头寸和流动构建了一个拥挤或“脆弱性”指标。当所有权集中或所有者面临相关的流动性冲击时，他们的测量值较高，他们发现这是对未来波动性的预测。

一些研究也使用了短期利率数据来衡量拥挤程度。例如，Hanson和Sunderam(2014)通过控制常见的风险因子，通过计算一个因子的底部十分位股票与顶部十分位股票之间的空头利差，根据给定的因子策略，利用短期利率数据来推断“套利资本”的水平。他们发现，套利资本水平与未来因子回报呈负相关。

然持有数据直观地吸引人，可以提供更直接的安全或战略投资措施，但缺点是这些数据往往不经常更新，在可用性方面有很大的滞后。例如，美国13F文件每季度报告一次，报告截止日期是季度结束后45天。其他公开持有的数据，比如做空利率，可以以更高的频率和更少的延迟获得。

基于价格和回报的分析

尽管定价和基于回报的拥挤度量是更间接的度量，但它们可以更频繁地更新，并且在度量和报告之间没有延迟。然而，一些度量，例如回报相关性，需要历史记录来计算。直觉上，人们可能会认为，随着一种策略变得越来越拥挤，与该策略相关联的股票将增加它们共同移动的趋势(相关性)，它们的移动可能会变得更不稳定。

在这方面，Lou和Polk(2013)检验了动量因子的上下十分位股票的相关性，发现当相关性高时，未来动量收益更低。

Wang和Xu(2015)发现市场波动对动量表现具有预测能力，主要受低动量个股表现的驱动。从概念上讲，拐点的定义是高波动性，这是很直观的，因为观点或情绪的变化会导致波动性增加。

Daniel和Moskowitz(2016)研究了1926年到2013年的动量回报，重点研究了严重表现不佳的时期，也发现市场波动性高与未来动量表现差相关。

此外，**“挤股”策略可能会导致拥挤股票和非拥挤股票之间的估值差异。**为了捕捉这种效应，许多研究都考察了某一因子的高评级股票和低评级股票估值的差异，发现这种差异可以作为未来因子表现的指标。例如，Asness等人(2000)使用了基于账面价值/价格(B/P)、预测收益/价格(E/P)和销售/企业价值(S/EV)的复合指数，以及顶部和底部十分位数价值股票之间的预测增长差值，他们发现价值差值和预测增长差值都能够预测未来价值因子的表现。

类似地，Cohen et al.(2003)发现B/P (HML)因子的回报可以被HML值的扩散所预测。最近，Yara等(2018)研究了股票、大宗商品、货币和债券的价值价差与价值因子收益的关系，发现价值价差策略可以在一定程度上被所有资产类别的价值价差所预测。在创建拥挤度测量时，我们利用了许多这样的研究，以及我们自己的研究，来创建一个因子拥挤度的综合模型。

MSCI因子拥挤指标

MSCI综合因素拥挤度模型综合了五项因子指标，包括基于持有、基于回报和基于定价的指标。这五个指标都在时间序列框架中标准化，然后结合在一个加权平均值中创建最终的综合得分。对于每个指标，我们将其与未来两年的因子收益和波动的关系分为4个6个月时间段。我们定义了每个度量，大的正值表示拥挤；基于我们的概念模型，我们期望观察到与未来因子收益负相关，与未来因子波动正相关。在该模型的这个beta版本中，我们使用MSCI Barra美国总市场模型(USTMM)因子(Bayraktar et al.， 2015b)研究了美国市场的因子拥挤程度。这五个参数是:

度量	描述
估值分布Valuation spread	因子的顶部和底部的五分位股票的估值，结合B/P，销售/P，和预测的E/PValuation of top vs. bottom quintile stocks of a factor, combining
B/P, Sales/P, and forecasted E/P
空头分布Short Interest spread	一个因子的底部库存与顶部库存的短期利率利用率的差异Difference in short interest utilization ratio of bottom vs. top quintile stocks of a factor
两两相关Pairwise correlation	因子的顶部和底部五分位数的股票与相应的五分位数平均投资组合的平均回报相关性Average return correlation of stocks in top and bottom quintiles
of factor to corresponding quintile average portfolio
因子波动Factor volatility	MSCI Barra model forecast factor volatility relative to forecast market volatility MSCI Barra模型预测相对于市场波动预测的因子波动
因子反转Factor reversal	去36个月累积的往绩因子回报Cumulative trailing factor return over last 36 months

估值分布

由于大量资本追逐一组证券，将导致这些证券变得比其他不那么拥挤的证券更昂贵，从直觉上看，估值价差是一个有吸引力的指标。在我们的模型中，这个度量度量了一个因子的前五分位数的库存相对于后五分位数的昂贵程度。当高五分之一的股票相对于低五分之一的股票变得更贵时，衡量拥挤程度的估值价差将会增加。具体来说，我们计算B/P的中位数，销售/价格(S/P)和预测E/P在一个因子的顶部和底部的五分位数股票，然后计算两者之间的比例或差异。对于B/P，我们计算比值的自然对数

(因子下五分位数的中位数B/P) /(因子上五分位数的中位数B/P)

(median B/P in bottom quintile of factor) / (median B/P in top quintile of factor)

在这个公式中，较大的正值与因子中相对较高的拥挤度有关，因为分母相对于分子而言较小。我们使用底部五分位数账面价值与顶部五分位数账面价值之比，而不是算术上的差值，因为差值会对整体市场估值敏感，而比率则不会。我们用同样的公式计算标普估值比率。然而，由于收益收益率在理论上可能变为负值或接近于零，我们使用这个差值作为预测市盈率估值比率。具体来说,我们计算

(因子底部五分位数的中位数E/P) -(因子顶部五分位数的中位数E/P)

(median E/P in bottom quintile of factor) - (median E/P in top quintile of factor)

我们使用它自己的累积时间序列到给定的时间来标准化每一个估值价差，然后对给定的因子取三者的等权重平均值作为估值价差度量。我们使用中值而不是平均值，以防止异常值显著影响标准化过程。这对账面盈利率和收益收益率尤其重要。下面的表1绘制了估值指标与未来因子收益和波动率之间的相关性。

图表1:估值拥挤度指标与未来因素回报和波动率的相关性样本期为1996-2017年，美国全市场。我们在四个6个月的范围内衡量相关性{w:100}{w:100} 对于大多数高波动率因子——动量、价值、收益收益、规模、贝塔系数和剩余波动率——在第一个(0-6个月)和第二个(7-12个月)6个月期间，估值指标与未来因子回报有相当强的负相关，然后随着我们看得更远而衰减，正如人们所预期的那样。与未来因子波动率的关系不符合这一指标。

空头分布

做空利差指标衡量的是一个因子的底部和顶部五分之一股之间的利用比率(做空股票除以可做空股票)所反映的做空差异，该指标反映的是由于价值、规模和动量因子而导致的做空差异。底部五分位数相对于顶部五分位数的大量做空将导致较高的做空利息拥挤分数。由于对冲基金占卖空兴趣的很大一部分，对底部五分位数股票的大量卖空可能表明，对冲基金可能大量投资于该因子。我们采用了Bayraktar等人(2015a)中描述的相同配方，该配方基于Hanson和Sunderam(2014)。我们进行了一项横断面回归，在此回归中，我们对一组表示因子和大小、价值和动量因子的五分位数虚拟指标变量进行了股票水平的短期利率利用率，如下页所示。

𝑆𝐼=𝑎𝑓𝑎𝑐𝑡𝑜𝑟+𝑘𝑄1,𝑓𝑎𝑐𝑡𝑜𝑟𝐼𝑄1,𝑓𝑎𝑐𝑡𝑜𝑟+⋯+𝑘𝑄5,𝑓𝑎𝑐𝑡𝑜𝑟𝐼𝑄5,𝑓𝑎𝑐𝑡𝑜𝑟+

+𝑘𝑄1,𝑚𝑜𝑚𝑒𝑛𝑡𝑢𝑚𝐼𝑄1,𝑚𝑜𝑚𝑒𝑛𝑡𝑢𝑚+⋯+𝑘𝑄5,𝑚𝑜𝑚𝑒𝑛𝑡𝑢𝑚𝐼𝑄5,𝑚𝑜𝑚𝑒𝑛𝑡𝑢𝑚+

+𝑘𝑄1,𝑣𝑎𝑙𝑢𝑒𝐼𝑄1,𝑣𝑎𝑙𝑢𝑒+⋯+𝑘𝑄5,𝑣𝑎𝑙𝑢𝑒𝐼𝑄5,𝑣𝑎𝑙𝑢𝑒+

+𝑘𝑄1,𝑠𝑖𝑧𝑒𝐼𝑄1,𝑠𝑖𝑧𝑒+⋯+𝑘𝑄5,𝑠𝑖𝑧𝑒𝐼𝑄5,𝑠𝑖𝑧𝑒

𝑆ℎ𝑜𝑟𝑡 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡𝑠 𝑝𝑟𝑒𝑎𝑑=𝑘𝑄1,𝑓𝑎𝑐𝑡𝑜𝑟−𝑘𝑄5,𝑓𝑎𝑐𝑡𝑜𝑟

其中IQN是给定因子的第n个五分之一的指标变量，SI是做空利用率。然后，我们的度量的原始值被计算为感兴趣的因子的底部和顶部五分位数的回归系数之间的差值。在回归中，我们也省略了中间五分位数作为因子。我们使用了过去63个交易日的数据，以减少噪声，增加回归系数的稳定性。

我们使用每个因子度量的时间序列来标准化原始的空头利率差，在每个时间点使用一个扩展的累积窗口。我们在标准化中使用了因子特定的平均值，而使用了全局标准偏差(所有因子的平均标准偏差)，以保持度量的绝对程度。通过这种方式，标准化值保持了因子间的低均值短期息差的相对规模。下面的表2显示了短期息差指标与未来因子收益和波动率之间的相关性。

图表2:做空拥挤指标如何与未来因素回报和波动率相关样本期为2007-2017年，美国全市场。我们的做空利率数据历史，以及做空利差拥挤指标历史，始于2007年。我们在四个6个月的范围内衡量相关性。 {w:100}{w:100}

与估值价差指标一样，我们发现高波动性因子中与未来因子回报的负相关程度相当高，这些因素更容易出现拥挤现象。

两两相关

该指标衡量的是在考虑了市场、规模、贝塔系数和剩余波动因子的影响后，某一因子的顶部或底部五分位数的股票共同波动的程度。如果一个因子受到投资者的密切关注，从理论上讲，对该因子风险敞口很大的股票会倾向于一起波动，对该因子风险敞口很小的股票也会这样。这将导致较高的平均两两相关。对于这个度量，我们采用了与Bayraktar等人(2015a)相同的公式，该公式基于Lou和Polk(2013)的框架。

在这个度量中，我们选择一个因子的前五分之一的证券，对于每种证券，我们使用过去63个交易日的每日收益，测量其与前五分之一的平均回报(不包括个股)的相关性。下面的五分之一也是这样。我们使用特定的收益，考虑了市场、规模、贝塔系数和剩余波动率等标准风险因子。我们分别计算顶部和底部五分位数的平均成对相关性，然后取两个五分位数的平均值来创建给定因子的成对相关度量的原始值。我们使用特定于因子的平均值和全局标准偏差(所有因子的平均标准偏差)对每个因子的度量标准进行标准化，在每个时间点使用扩展累积窗口。下面的表3显示了两两相关度量与未来因子收益和波动率之间的关系。

图表3:两两相关拥挤度指标如何与未来因素回报和波动相关样本期为1996-2017年，美国全市场。我们在四个6个月的范围内衡量相关性。

因子波动

相对波动度度量的是给定市场环境下因子的预期波动率异常高或异常低的程度。如果大量资本追随一个因子，那么因子回报率的波动可能会加大，尤其是当因子达到转折点或市场情绪开始转变时。具体来说，我们的相对波动度指标是由Barra USTMM预测因子波动率除以市场因子的预测波动率来定义的。我们根据当前的市场波动进行归一化，因此度量标准在考虑了一般的市场波动后测量了预期的因子波动。我们使用一个时间序列框架对每个因子的度量进行标准化，该框架在每个时间点都有一个扩展的累积窗口。

由于我们知道波动率倾向于聚集或显示序列相关性，我们可能期望相对波动率度量与未来因子波动率正相关。这确实是我们观察到的，如表4所示。

图表4:因素波动率指标与未来因素回报和波动率的关系样本期为1996-2017年，美国全市场。{w:100}{w:100} 我们在四个6个月的范围内衡量相关性。几乎所有与未来因子波动率的相关系数在6个月内都是正的。当我们超过了最初的12个月后，相关性开始减弱。我们预计相关性会在某个点上减弱，值得注意的是，它需要大约12个月的时间才能显著下降。同样，就像估值差和短期利率差一样，与未来因子回报的相关性很大程度上是负的，尤其是那些波动性最大的因子。

因子反转

由于投资者有追逐过去业绩的倾向，一个在一段时间内表现良好的因子可能已经积累了大量资本。这种性能追逐最初可能会为因子性能提供顺风，但最终可能会为视图或位置改变时的下降或均值回归奠定基础。异常强劲的表现通常不会永远持续下去。对于我们的因子反转指标，我们使用了一个3年的跟踪窗口，这与许多基金业绩评估的时间框架是一致的。长期(3-5年)逆转的现象一直很好

(De Bondt和Thaler, 1985)。因此，我们的因子反转度量本质上是因子的长期反转模拟。与其他指标一样，我们使用时间序列框架标准化了因子反转指标。我们使用特定于因子的平均值和全局标准偏差(所有因子的平均标准偏差)对每个因子的原始3年回报进行标准化，并在每个时间点使用一个扩展的累积窗口。在表5中，我们展示了反转因子拥挤度度量与未来因子收益和波动的相关性。我们再次看到，在高波动率因子中，与未来因子收益的相关性大多为负，而与未来因子波动率的相关性大多为正。

图表5:因子反转拥挤度指标与未来因素回报和波动率之间的关联样本期为1996-2017年，美国全市场，我们在四个6个月的范围内衡量相关性。

综合得分

我们将5个度量标准的标准化值组合在一起，以生成最终的集成因子拥挤度得分，该得分没有重新标准化。为了总结拥挤度指标与未来因子收益和波动率之间的关系，我们对高波动率因子的相关性求平均值，并将所有指标与综合得分合并在一起，如表6所示。与未来因素回报和波动率的峰值相关性一般出现在7-12个月的水平，这表明在发生逆转之前一段时间内拥挤持续增加。

表6:综合拥挤评分和个人指标与未来因素回报和波动率的平均相关性样本期为2007-2017年的短期利率指标和1996-2017年的所有其他指标，美国全市场。相关性的平均值超过六个最高的波动率因子-动量，价值，收益收益，规模，贝塔和剩余波动率。{w:100}{w:100}

动量因子深观

从拥挤的角度来看，动量可以说是最有趣的因子，因为根据我们的度量标准，它已经遭受了一些最严重的下降和极端程度的拥挤。表10绘制了自1998年以来标准化拥挤得分的时间序列，以及该因子的综合得分和累积因子回报。

图10:动量因素的MSCI因素拥挤史单个MSCI因子拥挤度指标(上面板)和动量因子累积因子回报综合评分(下面板)的历史。市场历史上值得注意的点——2000年2月1日(科技泡沫);2008年8月1日(金融危机前);2015年12月31日(2016年之前动量下降)-用粗虚线标记。{w:100}{w:100} 这些指标在重大市场事件期间的行为为投资者在这些时期的定位提供了深刻的见解。例如，在科技泡沫时期，几乎所有的拥挤指标，尤其是估值价差、因子动量和相对波动性指标，都达到了很高的数值，将综合得分推到了极端水平。泡沫破裂后，所有指标的值都下降，总得分显著为负，说明动量因子非常不拥挤。

在接下来的几年里，综合得分仍然主要为负，直到2007年，动力因子的拥挤程度开始再次增加。2008年，在金融危机之前，综合得分接近2，表明存在严重拥挤。当市场在2009年反弹时，动量因子崩溃了。然而，综合拥挤度得分在动量因子崩溃前几个月下降的事实表明，2009年的动量崩溃不是由拥挤度驱动的。动量综合得分一般保持为负或中性，直到2015年，综合得分再次上升到1以上，表明拥挤已经形成。截至2018年2月，动量因子的综合得分回到了中性区，接近0.5。取+/-1的积分来表示拥挤和不拥挤的显著水平，在这一天没有因子显示出明显的拥挤。只有规模因子的综合得分低于-1，表明根据我们的模型，大型股明显不拥挤，估值和做空成分是低得分的主要驱动因素。图11显示了Barra USTMM在历史上许多有趣的时间点——在科技泡沫期间、金融危机之前、2016年第一季度的下降势头之前，以及最近的2018年2月——的所有长期因子的综合拥挤度评分以及每个单独指标的贡献。这些因子是根据科技泡沫时期的综合得分排序的。

图11:摩根士丹利资本国际综合因素拥挤评分和贡献 {w:100}{w:100}

结论

随着因子的兴起，机构投资者越来越多地寻求了解他们的因子敞口是否拥挤。目前的MSCI Barra股票因子风险模型旨在提供洞察和细节，以帮助机构投资者了解投资组合的定位，以及是什么驱动了其风险和回报。MSCI综合因素拥挤模型旨在为Barra模型提供补充，让投资者了解市场其他部分相对于因子的定位。该模型通过考察一组稳健的指标，推断出因子战略中的相对拥挤程度，这些指标包括持股、定价和基于回报率的信息，这些信息对遵循相同战略的大量资本非常敏感。该模型可用于快速识别聚集风险可能积聚的地方，并帮助投资者评估调整自己的风险敞口是否有必要。我们已经研究了每个指标和综合得分与随后的因子表现、波动和下降之间的关系。虽然不能预示未来的事件，但我们发现，从历史上看，一个因子的高度拥挤，意味着该因子此后表现不佳的风险更大，波动性也更高，尤其是在随后的6至12个月。就动量因子而言，几乎所有指标都表明，在金融史上许多有趣的时间点——上世纪90年代末的科技泡沫时期、2008年金融危机之前和危机期间，以及2016年第一季度动量下降之前的2015年底——都存在高度拥挤。虽然不可能确定下一次危机或极端事件将如何或何时发生，但很可能另一场危机或极端事件最终会发生。一些观察人士认为，拥挤导致了一些极端的市场事件。当因子中的拥挤(或非拥挤)变得极端时，投资者可能希望注意这些情况。我们的拥挤模型可以提供这些事件的迹象。

/wiki/static/upload/6d/6dd89ad9-e771-4987-a21d-63412adc778d.pdf