机器学习能用于基金组合构建吗

由crisvalentine创建，最终由crisvalentine更新于2022-08-31 09:22 被浏览 35 用户

摘要

文献来源：Demiguel V, Gil-Bazo J, Nogales F J, et al. Can Machine Learning Help to Select Portfolios of Mutual Funds?[J]. Social Science Electronic Publishing, 2021.

推荐原因：众所周知，事先确定未来表现优异的共同基金是一项困难的任务。本文基于大量投资者容易获得的基金特征数据，利用机器学习方法训练提升其预测能力。研究发现，利用1980年至2018年期间美国股票型基金的数据，基于机器学习方法构建的基金组合，经风险调整后的年回报率样本外高达4.2%。主要原因是该方法可以利用多种信息，并允许预测因子与基金业绩间的非线性关系。此外，可以发现随着时间的推移所有投资者组合的业绩都会下降，这可能与资本市场的竞争加剧及行业层面的规模不经济有关。

{w:100}

导言

共同基金的研究一直表明，主动基金在扣除交易成本、管理费用及其他支出后整体上将获得负的经风险调整的回报（alpha）。然而，近年来的一些结果表明了不同基金特征信息有预测未来基金业绩的能力。如果投资者成功地利用业绩的可预测性，那么基金业仍然有主动管理的空间。在本文中，我们探讨了投资者是否可以用机器学习（ML）结合公开的数据来构建能提供正向收益的共同基金投资组合。

我们的方法与已有的文献在三个主要维度上有所不同。首先，我们的目标不是去发现新的基金业绩的预测指标。相反，我们的目标是为投资者提供一种在已有数据发掘基金业绩可预测性的方法。更具体地来说，我们考虑诸多与基金相关的变量或特征，这些变量或特征要么是投资者已经可以获得的，要么是可以很容易从已有的数据中计算得到的。第二，基于基金特征我们使用机器学习模型来预测基金未来业绩。我们将研究三大类机器学习算法：弹性网、梯度提升和随机森林。第三，我们的方法是动态的，且为样本外的。每次重新评估预测变量和业绩之间的关系也就是再平衡组合时，都要重新决定是否以及如何利用某一个基金特征来识别表现优异的基金。

我们的结果可以总结如下：首先，我们考虑的三个算法中的两个即梯度提升（GB）和随机森林（RF）能够选择出在风险调整的基础上，提供正向表现且在统计上显著的基金组合。这样的结论在多种稳健性检验下保持不变。第二，我们集中关注使用GB选择的投资组合，并证明它的性能不是由单一特征驱动的。多变量预测的方式要比试图使用单个基金特征的方式更优。第三，我们表明随着新数据的出现，不同变量的相对重要程度表现出较大变化。这种重要度的变化突出了动态方法的必要性，也就是基金特征和业绩的可预测性关系在每次组合构建时重新评估。最后，所有投资组合的alpha在样本期内都会下降，包括GB选定的投资组合。这一结果表明表现最好的机器学习算法可以从共同基金市场中提取alpha，但前提是首先要存在可以提取的alpha。

我们的结果对投资者、财务顾问、基金经理以及养老金计划管理者具有重要的现实意义。我们提出的方法易于实施并且可以用于改进基金选择。

数据和预处理

数据描述

我们从CRSP Survivor-Bias-Free US Mutual Fund数据库收集了美国共同基金的月度数据，数据收集于共同基金份额类别层面并且覆盖1980-2018年。根据共同基金的文献，我们使用了以下的筛选：首先，我们仅仅包括了主动基金的份额类别，因此去除了ETF和被动型共同基金。第二，我们选择的是股票投资比例在70%以上的基金份额类别。第三，我们去除了总净资产（TNA）少于500万美元，年限少于36个月的份额类别，从而避免幸存偏差。最终的样本包括总共6216只不同的份额类别，其中5561只综合型股票基金（占样本总TNA的94%）和665只行业主题基金。

我们采集的数据集包括份额类别层面的月度收益信息（扣除费用和交易成本的净值），TNA，费用比例，和换手率。进一步计算了：年限（份额类别成立之日的月度数），月流动量（经净收益调整的份额类别TNA的相对增长），流动量的波动率（12个月的流动量标准差）以及经理任期（年数）。进一步我们利用收益的历史数据来获得特征，即Fama-French五因子模型和动量结合估计的时间序列，使用36个月的滚动窗口将该份额类别的超额收益对过去36个月的五因子及动量进行回归。随后计算了精度调整的alpha（模型的截距项按照其标准误进行放缩）以及精度调整的beta。我们使用t统计量而不是原始的alpha和beta作为预测指标来来解释这些数量估计的不确定性。我们还使用了FF5+动量滚动窗口回归中的R方作为基金业绩的预测指标。对每个基金份额类别i及月份m，我们定义月度已实现alpha，如下所示。其中是在m月份额类别超过无风险利率的收益，是一个包含了m月已实现市场、规模、价值、盈利能力、投资、以及动量因子的向量。是利用过去36个月数据进行滚动窗口回归估计得到的因子载荷向量。

{w:100} 最终，我们使用了已实现的alpha来计算每个份额类别和月份的资产增加值，反映了基金经理从资产市场中提取的美元价值,定义为。

图1报告了我们样本中每个特征的均值、中位数、标准差和类别-月度观测值的数量。

预处理

我们对应用于机器学习算法的数据进行了如下的预处理。首先，我们将我们的样本从月度转化为年度数据。我们的目标变量是这些基金年度的已实现alpha，这可由每个日历年中的月度已实现alpha进行加总得到。计算了流动量和资产增加值的年度值为每年1月到12月月度数据的平均值。流动量波动率已经为按照年度频率定义。对于所有其他变量，我们使用在每年12月的值。第二，对每个特征进行标准化从而使他们在横截面上均值为0，标准差为1。标准化经常在涉及机器学习方法的实证问题中使用，并且对于保持机器学习估计过程中的放缩不变性非常重要。我们还将缺失的特征值设置为标准化后的当月非缺失值的均值，即0。第三，我们建立了由目标变量和预处理特征构建的最终数据集，这些特征是机器学习算法训练的预测因子。如上所述，目标变量是基金在日历年的已实现alpha。作为预测因子的特征包含以下滞后一年的标准化变量：年度已实现alpha、alpha（36个月个滚动窗口回归截距的t统计量）、TNA、费用比率、年限、流动量、流动量的波动率、经理任期、资产增加值、R方以及市场、盈利能力、投资、规模、价值和动量因子beta的t统计量（从滚动窗口的回归中得到）。图2展示了分析中使用的变量之间的相关性矩阵。目标变量和滞后预测因子的相关性较低。然而一些预测因子表现出显著的正相关和负相关，其中滞后流动量和流动量波动率之间关联最高（59%）。

{w:100} 最终我们将我们的数据组织为面板结构，基金份额类别被标记为，年份被标记为t=1,…,T。

方法

作为基准的预测方法，我们考虑普通最小二乘法（OLS）方法：

{w:100} 其中，其中是参数向量，而表示2-范数。OLS方法提供了一个无偏估计量和一个方便的解释。但是，OLS的表现常常在数据存在高方差、非线性和交互作用时表现比较差。在这种情况下，机器学习方法往往以牺牲可解释性为代价而获得比OLS方法更好的表现。

我们选择了三大类机器学习方法：弹性网、随机森林和梯度提升。弹性网方法考虑了和OLS相同的线性近似，但是在预测因子相关时提供了改进后的参数估计（通过正则化）。此外，为了拓展线性近似并捕捉非线性和预测因子间潜在的相互作用，我们考虑决策树的集合（随机森林和梯度提升），因为这些方法在结构化数据的一般应用中的预测性能通常优于线性方法。

弹性网

对于具有大量预测变量的高维模型，收缩或正则化方法通常能提供更好的参数估计。Zou and Hastie (2005)提出的弹性网方法使用1-范数和2-范数正则化项来缩小估计参数的大小。这种方法的一个优点是不需要实现选择相关的特征因为过度拟合会被正则化项削减。具有两个正则化项的弹性网一般框架如下：

{w:100}

其中，其中是参数向量。1-范数项控制估计参数的稀疏度，2-范数项稳定正则化路径。我们实现了具有两个惩罚项（ρ和λ）的弹性网框架。

随机森林

随机森林基于决策树的bootstrap聚集。决策树具有高度的可解释性，通过在每个节点上分割样本来自动选择预测变量。然而由于预测的高方差，他们的预测性能可能很差。随机森林通过对多个决策树进行平均来减少对决策树的预测方差。预测方差的降低和树之间的独立程度（相关性）有关，因此，各树之间的相关性应尽可能地小。为了实现这一点，随机森林使用bootstrap为每棵树随机选择观测值，并在树的每个节点上随机选择预测因子（特征）的子集。bagging（bootstrap聚集）按照以下方式进行。表示为样本获得的已实现alpha的预测。然后，进行B次bootstrap重复的bagging预测是：

{w:100} 其中表示第b个决策树的预测。在为每个bootstrap样本绘制一个决策树之后，通过在每个节点上随机选择m个基金特征并选择最佳的特征进行切分来生长决策树。在随机森林的实现中，我们设置B=1000。以往的实证研究表明随机森林具有良好的预测性能，尤其是当问题的维数较高，变量之间的关系为非线性且包含相互作用时。

梯度提升

区别于像随机森林一样以独立的形式聚合决策树，boosting使用了顺序聚合的方式，从弱决策树开始，结束于强决策树。通过这种方式，boosting能不仅减少预测偏差还可以减少方差，从而实现更好的预测。Boosting学会如何去缓慢地（顺序地）聚合决策树，从而给之前的树中预测结果不佳的观测值更多的关注。梯度提升的目的是增强使用一个损失函数来提高预测性能，当最小化损失函数时，梯度提升能够从之前的迭代中识别出较大的残差。具体地，在第b次迭代中预测函数更新为：

{w:100} 其中表示预测函数，h是由梯度残差计算得到的弱决策树，δ是学习率（超参数），。与随机森林不同，梯度提升往往会过拟合数据。为了避免过拟合，更多的元素和超参数需要被加入，例如：树的约束（树的个数、树的深度、节点的数量等等），学习率的收缩，数据的随机不放回子采样，对终端节点的值的惩罚等等。

通过样本分割优化超参数

为了优化弹性网、随机森林、梯度提升方法的超参数，我们使用了k=5的k折交叉验证。在k-折交叉验证中，训练样本是随机被分为了k组，其中k-1折被用来获得预测，而剩下的一个是用于衡量预测的验证集（交叉验证误差）。

实证方法与主要结果

尽管分析是在共同基金的份额类别层面进行的，但在本节中我们将基金份额类别称为基金。我们使用前10年的一年已实现alpha（1981-1990）与滞后一年的基金特征（1980-1989）数据来训练每个机器学习算法从而预测业绩。我们随后使用了在1990年12月基金特征的值，这些数据是没有用于训练过程的，要求之前训练的算法预测下一年（1991年）的业绩。我们形成了一个等权的投资组合，包含了预测基金业绩分布的top10%，然后跟踪这个组合在1991年12个月内的收益。如果，在此期间，一个属于这个组合的基金从样本中消失了，我们则假设投资于该基金的金额在剩余的基金中平均分配。对于每个连续的年份，我们将样本向前扩展一年，在扩展的样本上再次进行模型的训练，对之后的一年进行新的预测。通过这样的方式，我们构建了从1991年1月到2018年12月（346个月）top10%组合月度样本外收益的时间序列。

最后，我们评估了top10%组合。具体而言，我们使用346个样本外的投资组合月收益率和同期风险因子进行单一时间序列回归。投资组合的alpha是时间序列回归估计的截距。我们使用了不同的模型来衡量组合业绩：Fama和French(1993)三因子模型加上动量（FF3+MOM），Fama和French（2015）五因子模型（FF5），FF5模型加上动量（FF5+MOM），以及FF5模型加上动量和总流动性因子（FF5+MOM+LIQ）。但注意，在所有情况下基金选择都是基于FF5+MOM模型的预测业绩。

图3报告了通过梯度提升（GB）、随机森林（RF）和弹性网（EN）三种机器学习方法及普通最小二乘法（OLS）选择的共同基金top10%投资组合的估计alpha。为了进行比较，我们还计算了两个用被动策略构建的组合：包含了所有可用类别的等权重组合（EW），和一个对所有类别进行资产加权的组合（AW），同样是年度再平衡。

{w:100} 图3中有两个重要的发现。首先，所有基于预测的算法，包括OLS，都允许投资者用正alpha构建组合。第二，GB和RF都选出了具有正向且在统计和经济意义上都显著的alpha的基金组合。这些结果表明我们方法的结果对于业绩归因模型是相当稳健的。由RF算法选出来的组合的alpha值低于由GB选出来的组合，但是仍然正向且统计上的显著性。相反无论是用EN还是OLS选出的组合都没有达到统计上显著的alpha。虽然GB和RF所选组合的alpha都显著不等于0，但他们是否显著地区别于OLS所选的组合并不清楚。为了解决这一问题，我们构建了一个多空组合，即在GB投资组合中的基金做多，在OLS投资组合中的基金做空，并对该策略进行评估。图4所示的结果表明，GB选择的top10%组合与OLS选出的top10%组合之间的业绩差异为正且显著，在RF选择的组合上也有相似的结论。相反，EN选择的组合的业绩在统计上没有显著地区别于OLS选择的组合。最后，EW和AW基金组合都比OLS选择的组合表现显著更差。

然而，投资者可能会选择只投资主动基金，因此为了研究top10%组合在平均收益和风险方面的表现，图5报告了每个基金组合的如下衡量指标：平均超额收益、收益的标准差、Sharpe比率、Sortino比率、最大回撤以及根据历史模拟法计算的99%置信水平的VaR。在alpha上表现最好的两种方法也获得了最高的Sharpe比率。我们的结果不会随着考虑下行风险而改变：GB和RF选出了具有最高Sortino比率的基金组合。就最大回撤而言，由EN和OLS选出的组合似乎风险最高。最后，EW和AW组合在VaR方面是最安全的。

{w:100} 综上所述，本节的结果表明，投资者可以根据可观察的基金特征来获取相对等权重或资产加权的组合更好的业绩。然而EN和OLS都不能让投资者事现选出正向alpha的基金。只有考虑了基金特征和未来业绩之间非线性和交互作用的方法，即GB和RF，才能找出具有较大且显著正向alpha的基金，由此产生的投资组合在所有的组合中具有最高的Sharpe比率和Sortino比率。

稳健性检验

我们研究了我们的结果是否在以下情况中稳健：（1）考虑其他界限来选择基金；（2）选择其他模型来衡量经风险调整的业绩；（3）构建只包含散户共同基金份额类别的投资组合；（4）使用深度学习方法来获得基于预测的组合。

首先我们计算基于预测的包含top 5%和top20%基金的组合。如图6所示，根据GB，由top5%的基金构建的组合经风险调整的业绩略高于top10%组合。然而标准误也更高一些，因此作为结果t统计量更小。换言之，如果我们只投资于按预期alpha计算的top5%的基金，平均业绩会更高但可靠性会降低。当我们考虑top20的组合时，月度alpha下降的程度达到了10个基点，但是仍然保证在统计上显著。类似的结论也适用于RF。就像之前的top10%组合一样，EN和OLS都不能选择一个alpha为正且显著的组合，不论使用的什么界限。

{w:100} 第二，我们检验了我们的结果对于使用其他因子模型来衡量业绩是否稳健。具体来说，除了之前考虑的四种不同的模型外，我们还使用了Cremers et al.（2013）、Hou et al.（2015）和Stambaugh and Yuan（2017）的模型估计了基于预测的基金组合的经风险调整的业绩。结果如图7从定性的角度与图3相似。唯一值得注意的区别是，当我们使用Stambaugh和Yuan（2017）的风险因素来评估业绩时，GB和RF选择的top10%组合的业绩的统计显著性会降低。

{w:100} 第三，我们的样本包括机构和散户份额类别。因此，目前不清楚所考虑的机器学习方法是否仅仅选出了机构份额类别，这些类别往往费用更低且受到投资者更多严格的监督。为了回答这个问题，我们从样本中去除了机构份额类别并重复分析。结果如图8所示，表明GB和RF选择的散户基金组合在风险调整后的业绩与图3所示的相同，且在大多数情况下更好。这个结果表明投资组合经理的带来的资产增值传递给了散户投资者。去除机构份额类别后更好的top10%组合表现可以解释为，由于这一细分市场中竞争的情况不一样，这些类别中预测因子和业绩的关联和散户类别中的不一样。通过去除机构类别，我们提高了映射基金特征到基金业绩的函数的精确度。最后，EN、OLS、EW、AW组合的结果都与图3中的结果相似。

最后，我们研究了深度学习方法的表现。我们实现了最多3个隐藏层的前馈神经网络。图9中的经风险调整的业绩结果表明，使用神经网络获得的基于预测的组合在大多数情况中都获得了正向且显著的净alpha，但相比从最好的GB模型中获得的结果要更低一些。进一步，我们发现与多层网络相比，单层网络产生的组合具有更高的alpha，这表明在这种特定背景下，浅层学习比深层学习更合适。

{w:100}

基金特征与基金业绩

我们的研究结果表明，预测因子与基金业绩之间的关联的灵活性帮助投资者选择能带来正向alpha的主动基金。一个本质的问题是，最佳方法的出色表现是由灵活性单独驱动，还是由灵活性与多变量方法结合驱动，后者利用了多预测因子的预测能力。在这个部分，我们将探讨这个问题。

我们首先量化了四个预测模型中每个预测因子的相对重要度。图10报告了基于最后一个估计窗口的GB、RF、EN和OLS方法的变量重要度，该窗口对应1980-2017间最大的训练样本。从图10可以清楚地看到，在任何一种方法中都没有单一的特征占主导地位。GB和RF利用基金精度调整后的市场beta来选择基金，但是这些变量在线性模型下是没有这么重要的，线性模型更依赖于精度调整的动量beta。尽管线性模型利用了基金的费率，他们的预测能力被其他非线性模型中的特征所包含。这些差异突出了在预测因子和业绩之间考虑非线性和相互作用的重要性。

{w:100} 为了进一步研究很少量的预测因子对GB方法在选择共同基金方面的影响程度，我们仅使用在每轮估计中选出的2、3和4个最重要的预测因子重复分析。结果见图11。当只使用两个最重要的基金特征来预测业绩时，根据所考虑的所有模型由GB算法选择的top10%组合的收益为负alpha。然而alpha在统计上没有显著不等于0。如果我们还包括第三个最重要的预测因子，除Fama-French三因子外，所有模型的表现都为正但不显著。最后，如果我们将第四个最重要的预测因子包括在内，则top10%投资组合的业绩会显著提高甚至变得显著，尽管在所有情况下它仍然低于每月利用所有预测因素的top10%投资组合的业绩10个基点以上。这些结果表明灵活性不足以解释GB方法在选择共同基金投资组合时的表现，该方法利用了大量不同基金特征及其相互作用所包含的可预测性。

{w:100} 我们的方法的一个重要特点是，我们不主张使用单一的预测因子，而是在新的信息可用时重新评估模型。如果某些特征的预测能力随着投资者学习利用其预测内容的时间而变化，或者如果市场条件或经理策略发生变化，那么这个特征是一种优势。为了研究这种可能性，我们绘制了样本期内每年每个预测因子的重要度并证实了一些最重要的预测因子在其相对重要度方面随着时间的推移表现出很大的变化。

alpha随时间下降了吗

为了研究基金特征对未来业绩的预测能力随着时间的推移而下降这种可能性，我们评估了在GB、OLS、EW和AW投资组合的5年滚动样本期内，top10%投资组合的样本外表现，结果如图12所示。从图中可以明显看出，GB选择的top10%组合在大多数样本期内始终大幅优于EW和AW投资组合。截止2000年代后期，GB基金组合在每一个5年期的表现都优于OLS基金组合。然而自那时以来GB基金组合和OLS基金组合的表现非常相似。自2015年以来所有四个投资组合在业绩方面趋于一致，在样本的最后几年表现为负alpha。基于预测的组合的业绩下降与Jones和Mo（2020）的研究结果一致。因此，我们可以得出这样的结论：性能最好的机器学习算法能够从共同基金市场中提取alpha，但前提是首先要能提取到任何alpha。

{w:100}

结论

共同基金投资者能否从主动的资产管理中获益的问题受到了学术界、实务界和监管机构的广泛关注。机器学习方法可以利用多个基金特征训练基金，并从中选择在经济上和统计学上有显著正向经风险调整业绩的基金。这种正向的业绩对用于评估业绩的模型是稳健的，机构投资者和散户投资者都可以获得。相比之下，线性预测模型只能帮助投资者避免负向alpha。因此我们的结果表明：投资者，包括散户投资者，可以受益于投资主动管理的基金。

机器学习能用于基金组合构建吗

摘要

导言

数据和预处理

数据描述

预处理

方法

弹性网

随机森林

梯度提升

通过样本分割优化超参数

实证方法与主要结果

稳健性检验

基金特征与基金业绩

alpha随时间下降了吗

结论

标签