小样本下的共同基金筛选

由crisvalentine创建，最终由crisvalentine更新于2022-08-31 08:57 被浏览 13 用户

摘要

文献来源：Christiansen, Charlotte and Groenborg, Niels and Nielsen, Ole Linnemann, Mutual Fund Selection for Realistically Short Samples (July 1, 2019).

SSRN: https://ssrn.com/abstract=3300715

推荐原因：作者基于历史经验对主动管理基金的业绩能力分布进行了模拟研究，并给出了7种热门基金选择方法的效果。首先，作者记录了在短期和长期样本下采用不同方法所得到的结果在最终表现上存在显著差异。这表明，基于长期样本模拟得到的结论对短期样本表现的推断可能会产生误差。对于利用不同的显著性水平和近似离散的业绩能力分布也发现了类似的结果。最后，作者利用美国的股票型共同基金数据对7种不同的筛选方法进行了实证分析。作者认为，筛选方法的表现差异与样本大小有着直接的关系。

{w:100}

简介

对于从业者和学者来说，如何选择表现最佳的共同基金是一个长期存在的问题。这个问题之所以引起人们极大的兴趣，不仅是因为共同基金行业的管理规模，而且还因为选择最佳的共同基金对个人投资者有切实的利益影响。在共同基金选择方面的学术文献中，一般都记录了长样本期内表现令人印象深刻的资产。然而，投资者感兴趣的可能不是基金的历史业绩，而是最近的表现。同样，研究人员通常采用较短滚动窗口的基金选择方法来分析基金业绩的时间序列动态。如果基金经理随着时间的推移改变他们的风格和行业暴露，这种方法就显得尤其重要。此外，我们并不能保证在大样本中表现最好的方法在小样本中也能表现最好。由于这些原因，了解基金选择方法在小样本中的表现以及比较不同方法在短样本期间的表现是非常重要的。

为了评估基金筛选方法在小样本中的表现，我们进行了大量的模拟研究，基金样本来自一个连续的能力分布，高斯混合分布(GMD)，这样可以让我们去构建三个基金表现组，业绩表现较差、一般和较好。连续能力分布在确定基金样本是来自哪一种分布方面提出了现实的解决办法。例如，业绩表现一般的基金分布与业绩表现较好的基金分布重叠。本文在对美国股票型共同基金进行综合实证分析的基础上，选取了GMD能力分布参数。为了进一步协调不同选择方法的不同目标，我们还评估了小样本业绩的基金选择方法与近似离散的业绩能力分布。对于这种分布，每个能力组的标准差非常低。

我们揭露了几个有趣的发现。首先，当使用60个月观测数据的小样本时，我们发现不同基金选择方法的表现存在很大差异。由于选择方法的多样性，我们在分别对业绩较差、一般和较好的基金所占比例进行估计的基础上，进行可行的模型比较。特别地，我们给出了每种选择方法的表现，包括其模拟比例估计量的偏差、均方根误差(RMSE)和覆盖概率(CP)。其次，我们发现bootstrap方法和false discovery rate (FDR)方法在小样本下优于更高级的expectation maximization (EM)方法。我们发现，Kosowski等人(2006)和Fama和French(2010)的bootstrap方法以及Ferson和Chen(2015)的FDR方法对于现实中较短的样本周期具有较好的效果。

在给出小样本模拟研究的结果后，我们将这些结果与相应的大样本模拟研究进行了比较。我们发现不同方法的表现存在很大差异，与小样本的设定相比也存在很大差异。因此，基于大样本模拟的结果来对小样本的可能表现进行推断会产生误差。Fama和French (2010)、Ferson和Chen(2015)以及Barras等人(2010)的方法对于长样本周期具有较好的效果。

最后，我们进行了实证分析，我们将七种基金选择方法分别应用于一系列子样本。根据我们的模拟研究，我们发现不同的方法将得到完全不同的结果。barras等人(2010)的模型筛选出的基金大部分表现一般，Kosowski等人(2006)、Fama和French(2010)以及 Ferson和Chen(2015)的方法筛选出的基金大部分表现较差。Harvey和Liu(2018)的方法只筛选出了表现较差的基金。

共同基金筛选方法

本节介绍共同基金的筛选方法。在第一部分我们介绍了共同基金的选择方法，在第二部分介绍了我们的基准方法。第三和第四部分给出bootstrap方法以及false discovery rate (FDR)方法。第五部分给出了基于expectation maximization (EM)算法的结构化建模方法。最后强调不同基金筛选方法的不同目标函数。

简介

现有共同基金筛选方法的一个共同特点是假定基金经理的真实能力是来自于不同的能力分布或群组的。与大多数文献一致，我们根据基金经理产生净α的能力来定义不同的能力组。净alpha定义为基金在控制一般风险因素和费用后所产生的高于无风险利率的超额收益。我们考虑了业绩能力较强、能力较差和一般(零alpha)能力的基金经理，并依赖于以下三种能力组的定义：

能力较强的基金经理有足够的选股能力来覆盖交易成本和费用(α>0)。
能力较差的基金经理没有足够的选股能力来覆盖交易成本和费用(α<0)。
零alpha基金经理的选股能力刚好覆盖交易成本和费用(α=0)。

我们假设每个能力组都有自己的概率分布，这样所有基金的业绩能力就是一个复合的分布。我们分别用π_+，π_-和π_0来标记能力较强，能力较差以及零α基金所占比例。

所有基金的连续复合能力分布如图1所示。图中显示了在π_+=11%，π_-=59%，π_0=30%下拥有三个潜在能力分布的高斯混合分布(GMD)。连续GMD的参数是通过分析美国股票市场的共同基金数据所决定的。此外该图还描述了不同年化均值α_s和标准差σ_s，其中s=+,-,0。

{w:100} 由于真正的基金经理技能的本质是无法观察到的，因此综合能力分布对推断基金alpha的横截面构成了一个主要挑战。也就是说，由于这三种潜在的能力分布在某些alpha值上存在重叠，基金筛选方法可能会错误地认为来自零alpha组的基金是能力较强的。在更极端的情况下，共同基金筛选方法甚至会将能力较强的基金视为能力较差的。所以一种能够准确识别真正能力的方法对于推断共同基金的业绩和选择至关重要。

图1中关于连续能力分布的一个问题是，我们假设位于α=0%的基金的概率质量为零。这对于在零假设下假设所有基金都是零alpha基金的选择方法来说是有问题的。解决这个问题的最佳方法是考虑离散的业绩能力分布，即将三个能力组的标准差参数设为零。然而，这在我们的分析中是不可行的，因为Harvey和Liu(2018)的方法要求潜在的能力分布是连续的。因此，我们考虑一个近似离散的能力分布。在离散能力分布中，我们使用与在连续能力分布中相同的参数，除了我们将标准差改变为接近于零。我们在图2给出了新的离散能力分布。

{w:100} 在图2中，我们注意到能力组不再重叠。考虑非重叠的离散业绩能力分布的另一个原因是，我们所考虑的基金筛选方法估计的业绩能力较强、能力较差和零alpha基金的比例非常不同。例如，我们在图1中的连续GMD可以生成一个拥有alpha为正数但数值确很小的基金。这不会在离散分布出现，它将帮助我们理解，不同方法的表现在多大程度上受到重叠能力分布的影响。

基准模型

我们用Carhart(1997)基于Jensen(1968)和Fama和French(1993)的延伸来定义风险调整绩效(alpha)。四因子模型表示为：

{w:100} 其中𝑅𝑖,𝑡为基金经理i在t期内与一个月国债利率相比的超额收益，𝑅𝑚,𝑡是市场指数的超额收益，𝑆𝑀𝐵𝑡、𝐻𝑀𝐿𝑡、𝑀𝑂𝑀𝑡分别代表规模、账面市值比和动量三种因子的收益。𝛽𝑖是一个关于 𝑏𝑖、𝑠𝑖、ℎ𝑖、𝑚𝑖的向量，𝑋𝑖是在t时刻下4类风险因子的收益向量，𝜀𝑖,𝑡是基金i在t时刻自身特殊的收益残差并假设其均值为零并且服从独立、相同的正态分布。在这个框架中，共同基金经理真正的选股能力是由其𝛼𝑖来衡量的。

对共同基金选股能力的推断是基于传统的两步过程。首先，我们通过对各基金进行OLS回归去估计alpha。之后，我们在H_0: α_i=0下进行假设检验。业绩能力较强（较差）基金拥有显著为正（负）的alpha。我们使用Newey和West(1987)的异方差和自相关一致标准差估计计算基金的t统计量。如果没有特别说明，我们使用5%的显著性水平。这种方法成为了其他基金筛选方法的基准。

基准方法的缺点是我们要承担多个测试问题。当我们简单地基于5%的显著性水平下的t值来计算能力较强基金和能力较差基金的数量时，我们错误地拒绝至少一个零假设的概率将大于5%。这种可能性随着对比的次数的增多而增加，因此也随着基金的数量而增加。错误地拒绝零alpha基金的原假设意味着给一个alpha为零的基金贴上“能力较强”或“能力较差”的标签。因此，在选择最佳(或最差)共同基金时，进行多重比较至关重要。作为一个额外的基准模型，我们使用Bonferroni修正来扩展上述基准模型，该修正通过降低显著性水平来进行多重比较。

Bootstrap方法

Kosowski等人(2006)和Fama和French(2010)使用bootstrap选择方法来区分基金经理的能力和运气。研究认为，bootstrap法的必要性是由于基金alpha横截面的复杂分布特性。忽略这一点，并使用基准模型，将导致不同于其名义水平(5%)的拒绝率。我们使用这两种bootstrap方法来模拟一般业绩能力基金的alpha分布。

尽管两种bootstrap方法都能解释alpha横截面的复杂分布特性，但当我们推断能力较强、能力较差和零alpha基金的比例时，多重假设问题仍然存在。原因是比例是基于被拒绝的零假设的数量。当我们计算显著基金的数量时，我们错误地拒绝至少一个零alpha基金的零假设的概率将大于5%。概率会随着我们进行的假设检验的次数而增加。

FDR方法

Barras等人(2010)和Ferson和Chen(2015)在共同基金筛选中引入了错误发现率方法(FDR)的改版。我们同时使用这两种方法来估计业绩能力较差、零alpha和能力较强基金的占比。

FDR方法通过利用提高显著性水平的方法来解释多样性，从而平衡了第一类和第二类错误。基于这种想法FDR方法获得了很高的统计能力，降低了发生二类错误的概率。虽然高显著性水平增加了测试的能力，但它也增加了混淆好基金和坏基金的可能性。混淆是一个极端的例子，当一个基金被认为是能力较好 (能力较差的)，而实际上它的表现是相反的。

结构化模型法

Harvey和Liu(2018)采用结构化方法对三种类型基金的比例进行建模。Harvey和Liu(2018)通过使用GMD对结构进行建模，他们使用EM算法对其进行估计。他们允许任意数量的能力组，并且在实证应用中执行了识别两个能力组的测试。

Harvey和Liu(2018)认为基准模型的基金选择方法与面板回归模型具有固定效应。他们认为，事实就是如此，因为每个基金都假定有一个非随机的alpha。

Harvey和Liu(2018)的模型主张使用随机效应对应物，该模型假设基金的alpha是独立于相同的横截面分布而得出的。他们的方法允许他们从横断面alpha分布中汇集信息，以减少单个alpha估计的噪音。

基金筛选方法的目标

Kosowski等人(2006)和Fama和French(2010)的bootstrap法试图确定是否有单一基金在边际上表现出色。也就是说，这两种方法在所有共同基金中都有一个零alpha能力的整体原假设。拒绝零alpha能力的原假设只告诉我们一些基金是好的或不好的。然而，这些方法并不是用来估算数量的。在我们的研究中，我们关注的是bootstrap方法对能力较强、零alpha和能力较差基金的估计有多准确。

Barras 等人.(2010)和Ferson和Chen(2015)的两种FDR方法确定了能力较强、零alpha和能力较差基金。尽管他们估计了三类基金的比例，但他们这样做的同时控制了错误发现率。在目标是将错误发现率控制在特定显著性水平的情况下，在业绩能力较强或较差边缘的基金将被视为零alpha基金。因此，只有被认为是两个能力组内比较突出的基金才会被正确识别。也就是说，该方法识别出的能力较强或较差的基金太少。

Harvey和Liu(2018)的方法与我们比较的其他方法有根本的不同。首先，它基于一种结构性方法，假定零alpha基金组的概率质量为零。也就是说，它模拟了潜在的能力分布，就像我们在图1中展示的那样。其次，该方法还特别注重减少单个基金alpha估计的干扰。这在小样本设置中特别相关，因为在小样本中估计的不确定性通常会很大程度影响alpha的估计。然而，由于我们的重点是识别三种类型的基金，因此我们不研究该方法的降噪特性。因此，我们对该方法的使用并没有突出该方法的所有特性。此外，我们的小样本设置对这种方法来说非常具有挑战性，因为很难区分能力组。这意味着Harvey和Liu(2018)方法的比例估计可能与其他基金筛选方法有显著不同。为了完整性，我们仍然给出了Harvey和Liu(2018)的结构方法的模拟结果。

共同基金数据

我们研究了1992年6月至2017年12月的月观测数据。我们主要针对美国本土的开放式主动管理基金进行研究，数据来源为CRSP数据库。

经过一些列的数据筛选，在区间内我们最终的样本包括了1481个基金。通过我们的归因分析，我们把基金投资分为四种不同的投资风格：积极增长(96)、增长(849)、增长与收入(430)和收入(106)。我们的样本从1992年6月开始的原因是因为积极增长风格的基金可以在起始点回溯60个月。

图3显示了整个样本期以及区间内每五年的现有基金数量、平均TNA、平均超额收益率、平均标准差和平均高阶矩。我们将区间按5年划分，因为这是以前滚动窗口分析文献中通常考虑的。出于同样的原因，我们将使用5年周期为我们的模拟研究定义一个短样本。A显示了所有基金的统计数据，而B-E显示了不同投资风格基金的统计数据。

我们从A中看到，在我们的样本的前5年，最初有145只基金，有60个月回报观察值，在整个1992-2017年期间，这个数字增加到1481个。在C组中，我们看到这种增长主要是由增长型基金的大规模扩张推动的。从图3中，我们还可以看到积极增长基金(B组)在整个评估期间提供了最大的平均超额回报。然而，我们也看到，这个较大的平均超额收益有很大的平均标准差。超额收益具有较小的负偏度和较小的正超额峰度。

{w:100}

基准模型表现结果

图4显示了公式(1)中四因子模型的等权投资组合的年化alpha、因子暴露和决定系数。与之前的研究类似，基准模型在整个样本期内的年化alpha值为负，为-1.00%。从A我们还发现激进成长型基金倾向于小市值和低账面市值股票，而收益型基金倾向于大市值和高账面市值股票。在B中，我们给出了每一个五年期的年化alpha估计。随着时间的推移，alpha逐渐减少(变得更负)，直到最后一个子周期，它们再次增加。

{w:100} 我们研究公式(1)中基准模型的残差是否如假设的那样表现良好。我们检验了正态性、同方差和无一阶序列相关。49.43%的基金拒绝正态性(Jarque和Bera(1987))，58.88%的基金拒绝同方差(White(1980))，11.21%的基金拒绝一阶序列独立性(Ljung和Box(1978))，11.21%的基金回归残差存在一阶序列相关性。我们在基准模型的残差中发现了这种不规则性，这一事实激发了我们去使用bootstrap方法。

模拟研究

我们通过蒙特卡洛模拟来评估共同基金选择方法的小样本和大样本特性。

{w:100} 图5是由式(3)生成的模拟截面能力分布的估计值，其中给出了在3种相关性下针对小样本基金7种不同方法的能力估计。

{w:100} 总的来说，在我们所考虑的7种方法中，小样本模拟属性有很大的不同。我们看到，Kosowski等人(2006)和Fama和French(2010) 的bootstrap方法以及Ferson和Chen(2015)的FDR方法对于较短的样本周期相对有效。

图5与图4结构类似，是在3种相关性下针对大样本基金7种不同方法的能力估计。

{w:100} 从以上结果我们可以看出，对于小样本和大样本，选择共同基金的方法是不同的。因此，任何基于大样本模拟的小样本适用性的推断都应该受到一些质疑。

我们重复上面的小样本和大样本模拟试验，图7给出多个显著性水平下的平均绝对偏差、平均RMSE和平均CP。我们使用显著性水平:1%、5%、10%和20%。

{w:100} 对于小样本模拟我们发现，不管显著性水平如何，产生最低平均绝对偏差和平均RMSE的是Kosowski等人(2006)和Fama和French(2010)的bootstrap方法以及Ferson和Chen(2015)的FDR方法。我们还发现，这些方法有更高的CP。因此，我们认为，无论选择显著性水平的阈值如何，这个结果都是成立的。

在不同的显著性水平下，大样本模拟的结果更分散。这表明，在大样本设置中，不同方法的排名表现对所选择的显著性水平更为敏感。例如，如果考虑20%显著性水平，我们发现基准模型和Barras 等人(2010)和Ferson and Chen(2015)的两种FDR方法产生最低的平均绝对偏差和最小的平均RMSE。综合比较，我们发现最吸引人的大样本基金选择的方法是Fama和French(2010) 的bootstrap方法以及barras等人(2010)和ferson和Chen(2015)的两种FDR方法。

我们将上述模拟过程转换为基于离散能力分布并继续观测大样本与小样本的表现。

{w:100} 从图8的模拟中我们得到的结果与我们使用连续能力分布的模拟结果相似。具体来说，对于A中的小样本模拟，我们发现Kosowski 等人(2006)和Fama and French(2010)的两种bootstrap方法和Ferson and Chen(2015)的FDR方法拥有最低的平均绝对偏差和最低的平均RMSE。对于B中的大样本模拟，我们发现拥有最低平均绝对偏差和最低平均RMSE的方法是Fama and French(2010) 的bootstrap 方法以及barras等人 (2010)和Ferson和 Chen(2015)的两种FDR方法。结果表明，这些筛选方法的表现是稳健的，无论基金的alpha是从连续或近似离散分布产生的。

模拟研究

我们将选择方法应用于共同基金数据集。我们估计了1992-2017年整个样本期和图3的6个5年期子样本的业绩能力较强、较差以及零alpha基金的比例并比较了共同基金筛选方法的结果。

{w:100} 图9展示了整个样本期内的实证结果。我们可以发现对于给定的基金筛选方法，在不同的投资风格中，业绩能力较强、较差以及零alpha基金的比例大致相同。因此，在比较基金选择方法时，投资风格并不重要。

除了Tharvey和Liu(2018)，所有方法都确定了数据中的两种业绩能力分布，即业绩较差和零alpha。此外，我们的模拟结果表明，基准模型高估了业绩较好基金的比例。业绩较差基金的结果与文献一致，参见Carhart(1997)。

基准模型和调整后的基准模型均发现，大部分基金表现一般 (分别为76%和99%)。Barras等人(2010)的FDR方法也得到了同样的结果(64%)。相比之下，Kosowski等人(2006)、fama和French(2010)的bootstrap方法，以及Ferson和Chen(2015)的FDR方法发现，大多数基金都是业绩不好的(79%、79%和86%)。从我们的实证来看，Ferson和Chen(2015)的方法发现的大量业绩能力较差的基金。而我们的模拟结果表明，这种方法低估了业绩能力较差基金的比例。

基准模型和Barras等人(2010)找到了最多的零alpha基金。这可能表明他们过于保守。在模拟研究中，我们发现bootstrap方法和Ferson 和Chen(2015)的方法对小样本最精确。这些方法与实证得到的结果非常相似，通过发现大部分业绩较差的基金，并将其余基金分类为零alpha基金。

基于Harvey和Liu(2018)方法的实证结果与其他六种方法有很大的不同。这种方法只能找到业绩较差的资金。无论是小样本还是大样本，该方法的模拟结果都与其他方法有很大的不同。

{w:100} 图10展示了所有投资风格中每5年内业绩较好、较差以及零alpha的比例。Harvey和Liu(2018)模型仍然只检测到所有5年期间的业绩能力较差的基金。这里的结果与全样本相比没有变化。

当我们考虑5年期的子样本时，我们发现了一些业绩能力较好的基金。这与整个样本期的结果形成了对比，在整个样本期，对于所有的选择方法和投资风格，业绩较好基金的比例几乎为零。尽管如此，除了Ferson和Chen(2015)的方法外，其余所有模型都给出了非常低的业绩较好的基金占比。Ferson和Chen(2015)方法在前两个子周期中识别出了非常高的好基金比例(20%和32%)，但在我们样本的最后一部分中没有业绩好的基金。对于1992-1997年期间，不同的结果可能部分是由于Fama和French(1993)的SMB和HML因子在1993年前后的普及。Cremers和Petajisto(2009)发现，主动管理基金的份额随着时间的推移而下降。他们认为，最近的数据受到了主动型基金中的“密室指数”的影响。

两个基准模型和Barras 等人(2010)的方法发现，在所有子样本中，大多数基金是业绩一般的。同样，Ferson和Chen(2015)发现，在所有样本期间，大多数基金都是业绩较差的。对于这四种方法，子样本结果与整个样本结果相似。

对于Kosowski 等人(2006)和Fama 和French(2010)的bootstrap方法，结果随时间而变化。在前两个子期(1992-1997年和1997-2002年)中，大多数基金表现一般，此后大多数是业绩较差的，与整个样本期相似。两种bootstrap方法中业绩能力较差和零alpha的比例有很大的不同。这是由于与kosowski等人(2006)方法相比，Fama和French(2010)方法的置信区间更大。在我们的样本期的早期部分，业绩较差的基金比例较小这与kosowski等人(2006)、Barras等人(2010)和ferson和Chen(2015)一致。所有人都发现，在最近的数据中，基金表现变得更糟了。

结论

我们建立了一个基于历史数据的复合业绩能力分布的模拟研究，并调查了7种热门基金选择方法的效果。我们记录了在短期和长期样本期间的方法在性能上的显著差异。此外，我们发现，模型的相对表现在短期和长期样本之间是不同的。这表明，基于长样本模拟得到的结论对短样本表现的推断可能会产生误差。对于不同的显著性水平和近似离散的业绩能力分布也发现了类似的结果。

本文对美国股票型共同基金的筛选方法进行了实证分析。我们认为，筛选方法的表现差异与样本大小有着直接的关系。