量化百科

如何构建一个三因子模型?

由polll创建,最终由polll 被浏览 28 用户

谈起量化投资之中最为著名的模型,除了CAPM,可能就是Fama和French的三因子模型了。大名鼎鼎的CAPM模型在Markowitz和Sharpe的努力下构建出理论模型后,许多大牛都对其进行过实证检验,包括诺奖得主Scholes、Merton和Fama,这些针对于上世纪70年代以前数据的分析证明CAPM的有效性,但是在70到80年代的研究中,人们却发现股票收益不能被市场贝塔很好地解释,市场异象频生,这意味着,我们还需要用其他的方式来寻找新的因素来分析股票收益的变动。

1992年Fama和French采取横截面回归的方法,研究市场贝塔、账面市值比(下文简称帐市比)、市值、市盈率以及财务杠杆对股票收益率(平均值)的影响,在分别检验时这几个因素对于收益率的解释力都很不错,但是在同时回归的时候,发现市值和帐市比中包含了其他几个因素的影响。基于此,两人在一年后推出了神文《Common Risk Factors in Returns on Stocks and Bonds》,并奠定了三因素模型的框架和研究范式。值得一提的是,这篇发在JFE的稿件从收取到录用一共就花了两个月,不得不说大牛就是大牛,另外这篇文献的引用达到恐怖的14000多次。

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='470' height='237'></svg>)

△Eugene Fama和Kenneth French

这个模型的思路主要由下面这个公式决定:

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1200' height='85'></svg>)

公式里含有3个贝塔的部分就是模型的三个因子。第一个因子其实和CAPM一致,即投资组合超过市场表现所带来的收益,即超额收益,第二个和第三个因子(分别由市值和帐市比反映)则说明了上市企业的规模和价值都会对投资收益带来影响。

在提取因子的时候,我们需要对数据进行手工的处理,并进行相应的分类。在Fama和French的文章中,他们用每年六月末的股票市值和每年年末的帐市比作为分类依据,因为六月末是美国股市要求披露年报的日期,而年末时间节点的选择是因为我们整个研究是以一个自然年为分组依据。当然在A股的研究中,因为4月是我们年报的披露截止时间,所以在研究中一般会针对市场情况,对时间节点进行调整。

言归正传。第一个步骤是对研究对象进行分组。假如我们要用三因子模型研究沪深300,那么首先我们依据每年4月底的300只股票的实证进行排序,分位值定位50%,也就是说一半小盘股(S)和一半大盘股(B),当然,这个简称不是骂人。然后依据年末的帐市比数据把股票分为三类,30%的高价值(H)、40%的中等价值(M)和30%的低价值(L),然后我们对两类分类法取交集,就可以得到SH、SM、SL、BH、BM和BL六个组合。另外由于我们的研究往往依据多年数据,而上市公司的股票表现都是不断变化的,因此我们需要每十二个月对分组进行一次调整。

另外,我们也需要对六类组合的收益率进行计算,一般我们都是用月数据进行分析,因此我们会使用本月月末的收盘价和上月月末的收盘价作比较计算月收益率,并基于组合中股票市值作为权重指标进行调整,进而得到一个市值加权的收益率,这样我们可以降低极端值的影响。

我们刚刚已经对沪深300的股票进行了分组,那么接下来我们就能计算相应的因子值了。对于规模因子(SMB)而言,它反映了公司规模的差异造成的风险溢价,由于小盘股效应的存在,我们这样进行计算:

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='637' height='102'></svg>)

而针对价值因子(HML),我们的公式则写成:

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='424' height='102'></svg>)

结合之前我们计算的收益率数据,我们可以计算得出两个因子的收益率数据,并且这个数据是一个月度数据,如果我们研究的是过去10年的沪深300,那么这个序列就有120个相应数据。

而对于第一个因子,也就是市场收益减去基准收益的计算,一般来说市场收益就是我们组合标的的收益,在这里就是沪深300的月度收益,而基准收益则是一个相对灵活的指标,因为它代表的是无风险收益,因此许多研究会使用一年期存款的利率,也有一些研究会选取Shibor等指标。

现在我们得到了三个因子的数据,一共有120*3=360个。在Fama他们的原文里,作者又继续按照市值和帐市比,将股票各分为5类,于是就得到了25个股票组合作为被解释变量,然后用三个因子的数据对25个组合的收益率分别进行回归(也就是进行了25次回归)并利用参数的显著性,判断这些因子对于沪深300指数的适用性,或者说,是否有足够好的解释能力,以及对哪一类型的股票有更好的解释能力。

这样的分析方法成为日后量化分析的标准模式,尽管人们开发出了包含动量的四因子和包含盈利能力和投资水平的五因子模型,但基本的研究范式都没有改变,人们只是试图寻找新的独立因子,来更全面地解读我们投资收益变化的原因,或者寻找一条更有解释力的方法来架构自己的投资策略。14000次的引用意味着3因子几乎已经被用来分析过全球所有的市场,基于每个市场的特征它们的解释能力存在差异,但还是取得了广泛的适用性。

但是之前的文章中我们探讨过,基于我们的计算结果,A股市场的截距项并不显著为0(点击链接),也就是说我们的市场中存在着明显的同涨同跌情况,而三因子的市场有效基础要求截距项应当是趋于0的,这意味着,即便三因子模型在A股中有解释力,但是这种解释依然是不充分的,我们需要将这样的市场联动同样作为A股市场收益研究的独立因子加以研究,这既是A股市场缺乏足够对冲工具的结果,可能也是我们在使用相应的因子模型时,必须要考虑的问题。

\

标签

量化投资三因子模型数据分析
{link}