【045】Which Characteristics?


(hbworld) #1

本文是因子选择专题的第 002 篇,也是因子动物园的第 045 篇独立原创研究。

未经授权,禁止转载!】欢迎私信公众号后台或动物园园长获取转载授权。

【30 秒速览】HHRZ (2018) 利用机器学习算法筛选因子,得到了显著优于传统方法的结果。他们指出,平均而言,重要的公司特征可能多达 30 个,这表明我们对于资产定价的研究还远远没到终结之时

目录

01. 简介

02. 基本框架

03. 实证结果

04. 重要特征

05. 一点评论

06. 结语


1. 简介

过去数十年间,学者们发现了成百上千种因子,业界挖掘出的因子更是不计其数,这正是因子动物园的由来。与此同时,不少研究也指出,这些因子中,相当一部分其实是无效的。那么,哪些因子真正有用呢?

一项经典研究是 Green, Hand, and Zhang (2017) 。这篇发表于 RFS 的经典文章检验了 94 个异象,指出有 12 个异象对股票收益有显著的预测能力。此外,他们还指出,2003 年之后,因子的样本外表现大幅下滑。

GHZ (2017) 指出了有价值的公司特征数量并不仅仅是 Fama-French 五因子等经典模型里那少数几个。但另一方面,他们的研究也颇有争议,最为重要的是,他们的结果有较大的过拟合风险。用 94 个因子做多元线性回归,是过拟合的重要来源。

幸运的是,机器学习的迅速发展,为研究人员提供了工具去对比大量的因子。正是基于这一考量,Han, He, Rapach, and Zhou (2018) 进行了一项新的研究。

2. 基本框架

HHRZ (2018) 主要探讨两个问题:

  • 首先,利用机器学习算法是否可以有助于选择因子,并显著提升对股票未来收益的预测能力?

  • 其次,有多少因子是重要的?它们都属于什么类别?

在展开讨论之前,让我们暂时先停一下,思考一下我们对这些问题的预期答案是怎样的。基于大量变量和相对较短的时期,我们总是可以用数据挖掘方法找出一些有显著预测能力的变量。但这是否符合我们的逻辑和认知呢?

关于第一个问题,如果机器学习能有效克服共线性和过拟合风险,那么,应当有助于改善传统方法的结果。

对于第二个问题,经济学逻辑可能更加重要。我们有理由相信,可能有较多公司特征都与股票未来收益有显著关联,并且更为重要的是,在不同时期、不同经济或市场状态下,起主导作用的变量可能完全不同。这一点已有诸多研究表明,在不同经济周期、不同市场状态、不同投资者情绪或者风险厌恶水平下,特定因子、行业的表现有着迥异的特征。

为了解决多元线性回归可能的多重共线性和由此导致的预测能力不足,HHRZ (2018) 引入了其常用的 forecast combination 方法。具体而言,在 t 月末,对于每一个公司特征,拟合下述截面一元回归模型:

\begin{equation} \label{univariate_reg}     r_{i, t} = a_{j, t} + b_{j, t} z_{i,j,t - 1} + \varepsilon_{i, t}   \end{equation}

其中, r_{i,t} 为 t 月末股票 i 的收益, z_{i,j,t-1} 为 t - 1 月末股票 i 的第 j 个特征。估计方法则采用 OLS 或 WLS(加权最小二乘)。

然后,代入 t 月的公司特征,得到对 t+1 月的股票收益的预测:

\begin{equation} \label{prediction}     \hat{r}{i, j, t+1|t}^{j} = \hat{a}{j, t} + \hat{b}{j, t} z{i,j, t}   \end{equation}

最后,对不同特征的预测值取平均得到最后的预测:

\begin{equation} \label{mfc}     \hat{r}{i, t+1|t}^{Mean} = \frac {1} {J{t}} \sum\limits{j=1}^{J_{t}} \hat{r}_{i, j, t+1|t}^{j}   \end{equation}

其中, J_{t} 为 t 时期有足够数据的特征数目。

除了直接对全部预测值取平均外,HHRZ (2018) 还计算了截断的平均预测值,即首先剔除掉最大和最小 5% 的预测结果,再取均值。

进一步,HHRZ (2018) 还考虑了另一种 combination 方法。他们引入了最为常用的线性机器学习算法 LASSO(或 elastic net)来寻找最优的组合方法,以取代简单的算术平均。具体而言,在获得基于不同特征的预测后,他们进一步拟合下述截面回归模型,并用 LASSO (或 elastic net)方法进行估计。

\begin{equation} \label{mfc_lasso}     {r}{i, t+1|t} =  a{j, t}^{GR} + \sum\limits_{j=1}^{J_{t - 1}} b_{j, t}^{GR} \hat{r}_{i, j, t+1|t}^{j}   \end{equation}

类似前文,可获得不同股票收益的最终预测。

3. 实证结果

为了与 GHZ (2017) 进行对比,HHRZ (2018) 利用了相同的数据,共 94 个公司特征。

他们首先比较了 forecast combination (FC) 和 GHZ (2017) 的传统多元线性回归方法得到的预测收益,对股票真实未来收益的解释力。从表 1 可见:

  • 传统多元线性回归方法的系数远小于 1 ,这表明股票的真实收益远低于模型预测收益,模型的过拟合风险较大。

  • 对于全样本和 2003 年之前的子区间,传统方法的 t 统计量显著高于简单的 FC 方法,但全样本显著性不及 LASSO 和 elastic net 。

  • 真正重要的是 Panel C 的结果。2003 年之后,如同 GHC (2017) 的发现,传统方法失效了,但 FC 方法的显著性则几乎不受影响,仍然高度显著

  • 另一个核心结果是模型的 R 方。在所有设定下,FC 方法的 R 方都显著高于传统方法,表明其确实有更好的预测能力。

![](data:image/svg+xml;utf8,)

表 1 :FM 回归结果对比.数据来源:HHRZ (2018), Table 3.

作者们基于预测收益,进一步进行了组合分析,来检验因子的预测能力(参见【027】追寻因子的足迹:分类、构造与检验 )。

表 2 展示了相应的结果。结果表明,对于市值加权组合,或者去掉了微型股(microcap stocks)的等权组合,几种方法的长期表现接近。但传统方法在 2003 年表现较好,之后表现则大幅下滑,而 FC 方法的结果则较为稳定。Panel D 直接检验了 2003 年前后的表现差异,也得到了同样的结果。这与前述 FM 回归的结果,也是一致的。

![](data:image/svg+xml;utf8,)

表 2 :预测收益分组组合表现.数据来源:HHRZ (2018), Table 6.

总体而言,传统方法的表现同 GHZ (2017) 的结果一致,2003 年前更好,2003 年后则迅速下滑,而 FC 则一致表现稳健。

4. 重要特征

由于每一期都会重新拟合模型,而 LASSO 和 elastic net 可以自动筛选显著的解释变量,因此,在不同时期,选择的重要因子会有所不同。有鉴于此,作者们也研究了哪些特征对于预测股票收益较为重要。

平均来看,LASSO 和 elastic net 选出的重要因子都约为 31 个,后者选出的因子稍多,但差距很小。此外,不同时期显著的因子数目一直在变化,且一个因子在不同时期的显著性也有变化,这表明不同时期的主导定价因素的确是有差异的,验证了我们的预期

![](data:image/svg+xml;utf8,)

图 1 :重要特征数目时间序列图.数据来源:HHRZ (2018), Figure 3.

进一步,作者们筛选出了在 2003 年之前和之后的两端子区间内,都有超过 40% 的时间显著的特征,一共有 9 个。按照 McLean and Pontiff (2016) 和 GHZ (2017) 的分类方法,其中 5 个属于基本面因子,2 个属于事件类因子,1 个属于市场类因子,最后一个则不属于他们的分类。最后这个因子是 sin (是否从事有害业务),即公司的主营业务是否属于烟草、酒类或赌博,这是一个典型的 ESG 因子。

5. 一点评论

HHRZ (2018) 的做法其实并不算非常创新,但通过巧妙地结合两类常用机器学习算法,他们还是显著提升了对股票未来收益的预测能力,并从一个更为稳健的角度,找到了一组可能更加重要的公司特征。

当然,近年来越来越多基于机器学习的因子研究纷纷指出,FC 和 LASSO 这样的传统线性机器学习算法对预测能力的提升程度,可能并不如一些非线性算法(例如,参见【041】机器学习驱动的基本面量化投资)。此外,复合的机器学习算法也不免让人担忧模型的经济学基础和可解释性。未来在这两个方向应该可以做更多工作。

6. 结语

HHRZ (2018) 利用机器学习算法,优化了股票收益预测模型,得到了显著优于传统方法的结果。此外,他们还发现,不同时期显著的因子数目并不相同,单个因子也并不总是一直显著,这验证了我们基于经济学逻辑的基本预期。

当然,他们采用的主要是线性机器学习算法,这在未来有不小进一步优化的空间。此外,如何提升相关结果的可解释性,也一直是这类研究的重要课题。

但不管怎样,我们至少知道,重要的公司特征绝不仅常见定价模型所定义的那么三五个,而是可能多达 30 个甚至更多,即便只考虑长期显著的因子,也有至少 9 个。这表明我们对于资产定价的研究还远远没到终结之时,学界还有很重要的工作要做,与此同时,对于业界的朋友而言,这也意味着市场其实并不那么有效,还有很多挖掘 alpha 的机会

全文完。

本文仅为分享,不代表任何投资建议。文章图表来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。

历史推荐:

文章索引:

因子投资小册子​mp.weixin.qq.com图标

因子体系:

FF 和 Barra 体系,谁是你的菜?​mp.weixin.qq.com图标

实践方法论:

【037】资产配置与因子配置:可以团圆吗?​mp.weixin.qq.com图标

投资因子:

【031】投资效应:Factor War 前传​mp.weixin.qq.com图标

研究方法论:

【027】追寻因子的足迹:分类、构造与检验​mp.weixin.qq.com图标

搞事情小组:

搞事情深度研究| 异质波动率之谜​mp.weixin.qq.com图标

实证研究:

【026】低 Beta 在 A 股:证券市场线是平坦的吗?​mp.weixin.qq.com图标

技术因子:

【040】Trend Factor in China :中国版定价模型?​mp.weixin.qq.com图标

低风险因子:

【018】低风险异象靠谱吗?解释与批判​mp.weixin.qq.com图标

动量因子:

【010】横截面动量那些事​mp.weixin.qq.com图标

基本面动量因子:

【038】不止于价格动量:基本面动量也很酷​mp.weixin.qq.com图标

A 股机器学习:

【041】机器学习驱动的基本面量化投资​mp.weixin.qq.com图标


References:

  • Bali, Turan G., Robert F. Engle, and Scott Murray. “Empirical Asset Pricing: The Cross Section of Stock Returns.” John Wiley & Sons, 2016.

  • Green, Jeremiah, John RM Hand, and X. Frank Zhang. “The Characteristics that Provide Independent Information about Average US Monthly Stock Returns.” Review of Financial Studies 30.12 (2017): 4389-4436.

  • Han, Yufeng, Ai He, David E. Rapach, and Guofu Zhou. “What Firm Characteristics Drive US Stock Returns?.” Available at SSRN 3185335 (2018).

  • McLean, R. David, and Jeffrey Pontiff. “Does Academic Research Destroy Stock Return Predictability?.” Journal of Finance 71.1 (2016): 5-32.

  • 李斌, 邵新月 和 李玥阳. “机器学习驱动的基本面量化投资研究.” 中国工业经济 8 (2019): 61-79.

题图:Mountain Alps, from pexels.com.