行业收益的可预测性:使用机器学习方法
由crisvalentine创建,最终由crisvalentine 被浏览 31 用户
摘要
文献来源:David E. Rapach, Jack K. Strauss, Jun Tu and Guofu Zhou. "Industry Return Predictability: A Machine Learning Approach." The Journal of Financial Data Science, Summer 2019, 1 (3) 9-28.
推荐原因:在整体经济环境中,利用滞后行业的收益,使用机器学习工具分析行业收益的可预测性。通过对后选推断和多重测试的控制,发现了行业收益可预测性的重要样本内证据。金融行业、大宗商品和材料生产行业的滞后收益显示了广泛的预测能力,并且预测结果所显示的行业间关系与经济运行过程也是一致的。样本外的行业收益预测,结合滞后行业收益的信息,具有经济价值:使用文献中的多因子模型来控制系统风险,在行业轮动组合中做多(做空)预测收益最高(最低)的行业,其年化alpha值会超过8%。在经济衰退期间(包括大衰退在内),行业轮动组合也产生了可观的收益。
介绍
大量的文献研究了股票市场总收益的可预测性。相比之下,虽然分析师的报告和资产配置通常都是基于行业,但从行业的角度去研究股票收益可预测性的相对较少。分析行业收益可预测性通常使用文献中关于市场总收益可预测性的预测变量,如总股息收益率、名义收益率和收益率差。在这篇文章中,将整体经济环境中滞后行业的收益作为信息集,用于检验行业收益的可预测性。
这是第一篇使用滞后行业收益直接分析行业回报预测能力的文章。由于行业之间的联系,一个行业的现金流被冲击可能会影响相关行业的预期现金流。在一个无摩擦的理性预期均衡中,投资者很容易认识到特定行业现金流受到冲击对所有行业间的影响。因此,所有相关行业的股价都会立即调整,以完全抑制现金流冲击对所有行业间的影响,而滞后的行业回报率没有预测能力。然而,Hong et al.(2007)结合Merton(1987)和Hong and Stein(1999)的观点,认为信息处理能力有限的投资者专注于特定的细分市场。在这种环境下,当某一特定行业出现现金流冲击时,由于信息处理的局限性,所以专门从事相关行业的投资者无法迅速得出冲击的全部影响。因此,信息在各个行业中逐渐扩散,导致股票价格的延迟调整,从而在滞后行业收益的基础上提高了行业收益的可预测性。
\
预测回归框架
一般预测回归模型的基础框架:
式(2.1)考虑了整体经济环境中所有行业的滞后收益对特定行业超额收益的影响,因此可以适用于一般的行业链。由于式(2.1)的高维性质(N=30),传统的最小二乘(OLS)估计存在过拟合的风险。为了应对预测回归模型的高维性所带来的挑战,本文将使用机器学习中的套索算法(LASSO)。
式(2.1)对应的LASSO目标函数:
样本内结果
在样本内,使用从肯尼斯·弗伦奇数据库中获得的30个行业投资组合(价值加权)的月度收益数据,使用行业标准分类(SIC)系统定义行业。
下图报告了每个行业的OLS post-LASSO系数估计值。在考虑滞后预测因子后,可用估计样本覆盖共684个观测值,样本期为1960年1月至2016年12月。下图使用粗体(斜体粗体)来表示系数估计值在10%(5%)水平上是显著的,这是基于传统的OLS post-LASSO t-统计得出的。LASSO选择167个滞后行业收益作为单个行业收益预测值。LASSO选择至少一个滞后行业收益作为29个独立行业的预测指标,而22个独立行业选择多个滞后行业收益。根据传统的OLS post-LASSO t-统计, LASSO选择的167个滞后行业收益中,有82(53)个在10%(5%)水平上是显著的预测值。一般情况下,当一个行业本身的滞后收益在7个行业中是LASSO的唯一选择时,自相关在下图中的作用有限。
通过控制下图中的167个系数估计值进行多重测试。多重检验涉及到这样一个事实:我们测试了大量的单个原假设,因此传统的p值——隐含地假设一个研究人员孤立地测试一个给定的原假设——可能会呈现一个具有统计学意义的误导性图像。为了解释多重测试,我们使用了Benjamini和Hochberg(2000)自适应版本的Benjamini和Hochberg(1995)线性升阶过程来控制错误发现率。结合第4节中的样本外结果,下图中经过多次测试控制的大量显著系数表明,关于行业收益可预测性的证据并不仅仅是数据挖掘的产物。
从经济相关行业信息逐步扩散的角度来看,下图中的许多系数似乎在经济上是可行的。例如,使用LASSO选择为19个行业选出的滞后金融(银行、保险、房地产和贸易)收益,并且根据传统的OLS post-LASSO t-统计,系数中的有11(7)个在10%(5%)水平上是显著的。此外,所有关于滞后金融收益的系数都是正的。这在经济上是合理的,因为许多行业的公司普遍依赖金融中介机构进行融资。此外,大宗商品价格冲击提高了处于早期生产阶段的行业价格和收益,同时挤压了处于晚期生产阶段的行业利润率和收益,如下图中,位于产业早期生产阶段的煤炭行业和石油行业通常与位于产业后期生产阶段的烟、书籍、纸、批发和饮食等行业成负相关。虽然下图中的其他预测关系很容易与相关行业间的信息逐步扩散到一致,但还是存在其他更难以解释的关系;例如,滞后的啤酒(啤酒和白酒)与未来煤炭收益联系,看起来它的经济渠道并不明显。众所周知,机器学习是发现数据中新关系的有效方法,我们下图中发现了许多“不寻常”的关系。
与完整模型的OLS估计相比,LASSO将很多“不重要”系数设置为零,从而降低了数据中的噪声,更好地识别滞后行业收益中的预测信号。然而,正如前面所讨论的,对于LASSO选择的预测因子,LASSO倾向于过度收缩全模型的OLS系数估计值。OLSpost-LASSO估计使收缩程度更局限,平均来看,在LASSO选择预测值时,只比一个全模型OLS估计小15%(量级)。综上所述,为了避免过度收缩以及过拟合的问题,采用OLS post-LASSO估计可以更准确地测量滞后行业收益中的预测信号。
下图中的收益可预测性可以反映随时间变化的风险溢价,而不仅仅是捕捉行业间的信息摩擦。为了阐明这个问题,式(2.1)增加了的四个滞后预测变量,分别为标准普尔500指数的股息率、三个月国库券收益率、十年期国债和三个月期国库券 (期限利差)的收益率差值、BAA级公司债券和AAA级公司债券(信用利差)的收益率差值。这些变量代表文献中较为流行的收益预测因子,通常被用于捕捉随时间变化的风险溢价。添加了四个滞后预测变量的式(2.1),在进行OLS post-LASSO估计后的结果与下图十分相似。因此,上述的四个时变风险溢价指标并不能很好地解释滞后行业收益的预测能力。
样本外结果
在样本外模拟投资者所面临的实际情况,并衡量行业收益可预测性的经济价值。基于OLS post-LASSO 的行业预测回归,构建了多-空行业轮动组合。首先,通过OLS post-LASSO,使用1969年12月的数据来估计每个行业的式(2.1),并生成一个样本外集合,该集合包含30个行业在1970年1 月的超额收益预测值,。根据超额收益预测值对行业进行排序,并形成等权的五分位数组合;接着创建一个零投资组合来做多(做空)顶部(底部)的五分位组合。接着重复上述步骤,构建一个基于OLS post-LASSO的月度多空行业轮动投资组合,样本外的样本期为1971年1月至2016年12月(共564个月)。在生成样本外的超额预测收益时,只使用了预测值,所以不涉及“前瞻性”偏差。
下图为行业轮动组合在样本期内(1971.1-2016.12)的业绩表现。可以直观的看到,基于OLS post-LASSO的投资组合具有7.33%的年化平均收益率和0.65的夏普比,均高于基准组合。不仅仅年化平均收益率和夏普比相较于基准组合有所提升,最大回撤和下行风险也有明显改善。
下图描述了行业轮动组合的对数累计收益,图中的竖线为国家经济研究局(NBER)确定的商业周期衰退期。基于OLS post-LASSO的行业轮换投资组合提供了可观的收益,在衰退期间,特别是大衰退期间,表现比基于OLS的组合更好。
下图更为详细地考察了投资组合在商业周期(扩张、衰退)中的表现(样本期1971年1月至2016年12月),并使用芝加哥联邦储备银行的国家活动指数(CFNAI)来衡量经济状况。在CFNAI观测中,位于底部20%(顶部80%)的月份被视为不好(好)状态。
总结
基于整体经济环境中的滞后行业收益,使用机器学习工具来分析行业收益的可预测性。首先为单个行业的收益指定一个通用预测模型,该模型的回归量包括30个行业的滞后收益。因为预测回归中包含过多预测变量会导致过拟合风险,所以利用机器学习中的LASSO来拟合稀疏模型。为了避免LASSO系数估计本身的向下偏差(幅度),通过OLS重新估计了LASSO选择的预测变量的系数。通过控制后选推论和多重检验,样本内结果提供了行业收益可预测性的大量证据,表明股票市场存在与行业相关的信息摩擦。
基于OLS post-LASSOestimation的预测回归去建立一个零投资的行业轮动组合,用于计算样本外的行业收益预测,该投资组合做多(做空)预测收益最高(最低)的行业。多-空行业轮动组合获得了显著的平均收益,在周期性衰退期间表现良好,并且在主导多因子模型中实现了超过8%的年化alpha。滞后的行业收益信息对于生成经风险调整后的平均收益显得相当有价值,因此为行业相关的信息摩擦提供了样本外的补充证据。