FF 和 Barra 体系,谁是你的菜?


(mmforever) #1

本文最初为动物园园长 1 年前在知乎开始因子投资写作时的旧文,您以前可能没读过,现重新编辑并增添部分细节后分享给您,希望对您能有所启发。

原文参见

【037】资产配置与因子配置:可以团圆吗?​mp.weixin.qq.com图标

未经授权,严禁转载。】

30 秒速览】本文仔细梳理了因子的两个核心属性——因子溢价和因子暴露——的定义和计算。依据逻辑和计算方法的不同,可以分为 FF 式因子体系和 Barra 式因子体系。前者侧重时间序列回归,具有较强的普适性;后者侧重截面回归,在理论上更加精确。二者各有优势,实践中应根据具体问题选择最适合的方法。

文章结构:

01. 因子溢价与因子暴露

02. 两类模型:FF 与 Barra

03. 为何两类模型可共存

04. 结语


1. 因子溢价与因子暴露

风险因子有两个基本特征:因子可以在长期内带来较好的回报,但也可能在很长一段时间内表现逊于竞争者及基准指数。在此基础上,本文将对因子的定义,和因子溢价、因子暴露这一对核心概念,以及因子的用途,进行解释和讨论。

风格因子越来越多地被认为是系统性风险的一部分。而论及系统性风险,便不得不提及市场组合风险及 CAPM 模型。CAPM 模型认为,资产的预期收益可以用其承担的系统性风险所解释,而一项资产所承担的系统性风险大小,则用 beta 来衡量。

从因子的角度看,这就是一个最为经典的单因子模型。注意,这里因子收益是独立的,而因子暴露则与资产有关,不同资产对市场因子有着不同的暴露。

对于一般意义上的因子,也是一样的道理。仍然假设资产的收益由单因子决定,那么,资产收益与因子收益间,仍存在如同 CAPM 那样的线性回归结构。对于多个因子,也可以建立类似的多元线性回归方程来分析,也即是所谓的多因子模型。

当然,通常认为资产可能还存在所有风险因子都不能解释的超额收益(可能为负),因此,在上述回归中,可能会添加一项常数项 alpha 来表示资产独特的超额收益。这并非当下我们关注的重点,因此略过,暂且不表。

2. 两类模型:FF 与 Barra

谈及多因子模型,自然离不开回归。而回归模型的形式,很充分地说明了资产收益与因子暴露和因子溢价之间的关系。但有一个核心问题还没解决,那就是,因子暴露和因子溢价如何得来。

依据回归模型,只要知道因子溢价和某个资产的收益,就可以得到该资产对各因子的暴露。反之,如果知道多个资产在同一时期的收益,以及同期各资产对各因子的暴露,也可以计算得到各因子的当期收益,即因子溢价。

前者即是经典的 CAPM 模型和 Fama-French 三因子模型,以及后续的各种多因子模型所采用的形式。

后者则是同样经典 Barra 风险因子模型(随着 Barra 被并入 MSCI,如今也叫做 MSCI 风险因子模型)的形式。

从模型形式上看,前者(FF 式因子)是给定风险因子溢价的情况下,分别计算每个资产对因子的暴露,核心是时间序列回归。而后者(Barra式因子)是给定风险因子暴露的情况下,计算不同因子的溢价,核心是一个截面回归问题。

对于 FF 式的因子,首先要计算其因子溢价。而因子溢价的计算,看起来也是很简单、自然的。以低市盈率因子为例。要计算 A 股的低市盈率因子的因子溢价,只需要按以下步骤进行即可:

  • 构造股票池:获得计算日当天全部A股的名单,并从中剔除掉 ST 股、停牌股票和上市不足 3 月的新股(此处以上市不足 3 月表示上市时间太短)。

  • 获取股票池中股票的最新市盈率:

  • 获取上一步构造的股票池中的全部股票的市盈率。假设有 3000 支股票,则此处应有 3000 个市盈率数据。

  • 由于市盈率 = 股票价格 / 每股盈利,而每股盈利为股票财务数据,一个季度才发布一次,且有不少的滞后期。因此,在获取数据时,需确保使用的是同一时期的数据。

  • 如果直接从已有的数据库获取,则应取 PE(LYR) 或者 PE(TTM) 。前者为依据上年年报计算而得的 PE,后者为根据最近 4 个季报计算而得的 PE(参见 A股财务数据的整理和使用)。

  • 对全部股票按照市盈率从小到大排序:

  • 但市盈率指标稍有一点特殊,因为企业的净利润(每股盈利)可能为负,因此市盈率可能为负。

  • 负的市盈率与低市盈率并不是一回事(低(的正)市盈率意味着公司股价相比利润并不高,也就是通常认为的估值便宜;而负的市盈率只意味着公司亏损,与估值没关系)。

  • 因此,此处一个简单易行的办法是剔除掉市盈率为负的股票后,再按照市盈率从小到大排序。

  • 构造多空组合:

  • 事先设定一个比例,选取相应比例的低市盈率股票做多。

  • 组合内部通常简单采用等权重。严谨起见,也可以采用市值加权,以规避潜在的非流动性暴露)。

  • 同样,选取同样比例的高市盈率股票做空,据此构造一个多空组合。

  • 假设前一步剔除掉市盈率为负的股票后还剩下 2700 支股票,且各自选取 10% 的股票进入多空组合,则构建低市盈率因子组合时,会做多这 2700 支股票中,市盈率最低的 270 支,并做空市盈率最高的 270 支。

  • 该多空组合的收益率,即代表低市盈率因子的收益(因子溢价)。

  • 如此循环,即可获得因子溢价的序列。再获取对应时期的资产收益,即可按照回归模型,计算得到资产对因子的暴露。

当然,在实际计算和操作中,还需定期(每月/每季度)进行再平衡,重新按照上述规则选取股票,构建组合。此外,构造组合时选取多少股票,也需要更仔细的测试和分析(做多前 10%,做空后 10% 只是一个惯例,学术研究中也常使用 20% 和 30% 作为分界线)。

特别地,为了验证因子的有效性,往往还会检验不同排序等级股票组合收益的单调性,而不仅仅跟踪极端的两个组合的收益差。

此外,也有很多细节是此处的框架介绍没有仔细讨论的。例如,在构造股票池时,是否剔除新股,以及如果要剔除新股,以上市多久为限(显然,A 股的新股表现,与港股和美股是迥异的,这由不同市场的 IPO 定价和股票交易限制所决定)。再如,是否剔除市值过小(所谓 microcap stocks,流动性过差)的股票,也可能显著影响计算结果。诸多研究都讨论过这一点。

而对于 Barra 式因子,则是不一样的思考方式和套路。仍以市盈率因子为例,Barra 式因子的计算,会依据下述方式进行:

  • 首先仍然是构造股票池,在全部股票的基础上,剔除掉不符合规则的部分股票。

  • 取股票池中全部股票在计算日的最新市盈率数据。

  • 将前述市盈率数据标准化,标准化的方法则有很多:

  • 最常用的是按照正态分布做标准化。

  • 另一种经典的标准化方法是按照中位数和四分位差进行,即分别用中位数和四分位差取代上述公式中的均值和标准差。这对于有厚尾分布的变量,可能会有更好的效果。

  • 此外,无论采用哪一种标准化方法,最后都需要截尾,即将超出区间的标准化数据,设定为相应边界值。如此处理的原因,主要是为了避免极端值影响回归分析的结果。

  • 上述标准化的数据,即是不同股票对市盈率因子的暴露。再获取同期的股票收益,代入前述回归模型,即可得到同期的市盈率因子溢价。当然,需要注意的是,由于前一步中的标准化,是基于市盈率数据本身进行的,也即是,较高的市盈率暴露,对应的是高市盈率股票。较低的市盈率暴露,对应的是低市盈率股票。因此,此处回归得到的市盈率因子溢价,也是高市盈率股票相对低市盈率股票的收益差,与前文 FF 式因子下的市盈率因子溢价,是不同的。

当然,Fama 在跟人合著的另一篇经典文章中提出了 Fama-Macbeth 检验,在一定程度上建立了两种形式的关联,虽然这个关联度并不是很高。此为后话,此处不多讨论(可参见【027】追寻因子的足迹:分类、构造与检验)。

3. 两种定义为何可共存

前一节讲到了因子的两种定义,及与之相关的因子溢价和因子暴露的具体方法。那么聪明的读者想必会自然而然地问一个问题,我们为什么需要两种因子定义和计算方法呢?为什么不能只保留一种呢?

原因其实是很自然的。FF 式因子的构造,核心是因子组合及因子组合所代表的因子溢价。因此,其构造过程是普适的,但也是不精确的。

普适是指这种构造方法,几乎可以适用于任何资产及任何因子,只要这类资产有这个因子的属性。例如,大家耳熟能详、喜闻乐见的动量因子(momentum),在 FF 的框架下,就不仅可以对股票定义,也可以对大宗商品、债券进行定义,甚至可以在大类资产之间定义(可能需要适当引入一些细分的大类资产类别,例如,不同行业的股票,国债、政策性金融债、不同等级的信用债,等等)。

不精确则是指,资产对因子的暴露,只能在一定程度上代表因子溢价对资产收益的解释力。因为,因子对资产收益的影响,并不是完全线性的(虽然也有越来越多的证据表明,长期看,线性模型可能是最好的模型)。这也是前文提及的,很多因子分析,只会按照前述因子定义过程,检验不同排序等级的股票组合的收益的单调性,但绝不会苛求该关系呈线性变化。

但它确实可以很好地帮助投资者理解其投资组合的潜在风险,以及收益与风险之间的平衡,据此对组合进行调整,尤其是在数据不足的情况下。可以看到,FF 式因子,大体上只依赖于资产收益率序列和相应因子/指标的排序即可。对于 FoF 产品(fund of funds, 专门投资基金的基金)的风险管理,我们大概就只能依赖 FF 式的因子体系了,因为我们可以较为容易地获取到所投资基金的净值序列,但几乎不可能获得这些基金持股/持债明细的较高频数据,甚至季度数据,都是获取不到的。

而 Barra 式因子的构造则全然不同。其核心是因子暴露的定义和计算。因为 Barra 是将因子指标数据标准化后,直接作为因子暴露,因此,其对数据质量的要求会比 FF 式因子高很多。

进一步,Barra 在建立因子模型时,往往会将好几种代表类似因子的指标一并计算,再按一定权重加权,作为最终的因子暴露,这就更加加重了其对于数据质量的依赖性和敏感性。

此外,与 FF 式因子可以很好地对不同资产进行定义有所不同,Barra 式因子最常用的还是针对股票(当然也要针对固收产品乃至对冲基金的定义,但其根基还是股票)。对于股票,将不同的因子暴露进一步加权组合,可以得到对股票的评分,据此,可以构建完善的多因子选股体系(事实上,针对基金评价筛选,也是类似的道理,但逻辑上会更加复杂,我们前两年也做过这方面的研究)。

特别地,由于其因子暴露数据相对准确、稳定(相当多的因子是依据财务指标定义的,而财务数据的变化频率,相对价格数据,要低很多),因此,Barra 式因子体系下的风险计量有可能会更加准确,也因此,Barra 式因子体系,被广泛应用于风险管理之中。

事实上,从 Barra 自己的定位也可以看出,其核心是高质量的数据。早年曾经有视频,内容是 Barra 的销售经理跟客户讲,我们可以把我们的方法完完全全地告诉你们,但你们还是得买我们的产品,因为,依赖的各种各样数据,只有我们收集得完整、靠谱。

因此,FF 式因子体系,是一种相对简单易行、不完全准确的分析体系,但胜在其普适性和解释力,以及对数据的要求较低。因此,若应用得到,对于投资组合配置、风险管理,都是很好的工具。

而 Barra 式因子体系,理论上可以获得更加准确的风险暴露估计,且其较为准确的风险暴露数据,可以进一步加权得到对股票的总评分,因此广泛应用于多因子选股和风险管理之中。但 Barra 式因子对数据的要求较高,且相对来说最适用于对股票的分析。

此外,Jegadeesh et al. (2019) 的最新研究指出,相比 FF 因子的 beta ,公司特征能更有效地解释股票的横截面收益(参见Which Beta ?)。这也符合我们对两类因子体系的特征的理解。

4. 结语

本文仔细梳理了因子的两个核心属性——因子溢价和因子暴露——的定义和计算。

依据逻辑和计算方法的不同,可以分为 FF 式因子体系和 Barra 式因子体系。前者先有因子收益,再利用时间序列回归计算因子暴露,相对简单易行,且具有较强的普适性,可以很好地辅助投资组合的配置决策和风险管理。后者则先有因子暴露,再依据截面回归获得当期因子收益,在理论上更加精确,因此被更频繁地应用在风险管理和多因子选股中,但其对数据质量有着很高的要求,个人或一般的机构投资者往往难以建立这一套框架。

就实践而言,不拘泥于某一方法,而依据具体问题选择适当的体系,可能是较好的做法。毕竟,最终目的都是为了构建可盈利的策略/产品和良好的风控方案。

若您也对因子研究感兴趣,不妨关注我们哦!

![](data:image/svg+xml;utf8,)


参考文献:

  • Bali, Turan G., Robert F. Engle, and Scott Murray. “Empirical Asset Pricing: The Cross Section of Stock Returns.” John Wiley & Sons, 2016.
  • Fama, Eugene F., and James D. MacBeth. “Risk, Return, and Equilibrium: Empirical Tests.” Journal of Political Economy 81.3 (1973): 607-636.
  • Fama, Eugene F., and Kenneth R. French. “Common Risk Factors in the Returns on Stocks and Bonds.” Journal of Financial Economics 33.1 (1993): 3-56.
  • Ghayur, Khalid, Ronan G. Heaney, and Stephen C. Platt. “Equity Smart Beta and Factor Investing for Practitioners.” Wiley, 2019.
  • Jegadeesh, Narasimhan, Joonki Noh, Kuntara Pukthuanthong, Richard Roll, and Junbo Wang. “Empirical Tests of Asset Pricing Models with Individual Assets: Resolving the Errors-in-variables Bias in Risk Premium Estimation.” Journal of Financial Economics 133.2 (2019): 273-298.
  • MSCI. “The Barra US Equity Model (USE4).” See https://www.msci.com/.

题图:Geological Formation, from www.pexels.com.