多因子模型水平测试题试答（风险预测部分）

由polll创建，最终由polll更新于2023-06-14 03:02 被浏览 56 用户

前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：

在过去几个月时间，RQ量化策略团队对这套经久不衰的量化模型进行了系统研究。由于我们一贯追求完美的工匠精神，相关的产品项目好像还需要一段时间才能发布。。。可这又有什么关系呢？毕竟等待过的东西才是最好的——如美酒，如家书，如高中教室窗外的顾盼倩影。

在数日前，我对测试题的因子部分进行了试答：

多因子模型水平测试题试答（因子部分） - 机器学习 & 金融量化分析 - 知乎专栏

下面，我继续对风险预测部分分享一些自己的想法。

本期嘉宾：流川枫。

*************** 多因子模型测试题回答开始 ***************

1 用于风险预测的多因子模型，在拟合时应侧重考虑哪些方面？

**答：**这里假定题目中所说的 **“**拟合” 是 Barra 的结构化风险模型的回归系数估计步骤，那么：

1 仔细检查离群值，剔除错误或不合理的离群值，把合理的，但在三个标准差以外的离群值拉回到三个标准差；

2 用市值平方根近似股票的特异波动率，对股票进行加权。一方面减轻残差异方差性的影响，另一方面保证在所有风险暴露相同的组合之中，因子组合是风险最小的组合。

详细可见 Barra 发布的 USE4 (The Barra US Equity Model）或 CNE5（Barra China Equity Model）研究报告。

2 是否有必要预测收益的波动率？如何预测收益的波动率？是否要在优化中使用波动率？

**答：**第一个和第三个就不说了，回答第二个问题。

在使用多因子模型对资产风险进行预测时，我们一般使用 Barr Rosenberg （Barra创始人）1974 年提出的建模思路，先估计因子收益的协方差矩阵，再预测组合收益的协方差矩阵。

如果直接对资产组合收益的波动率建模，由于多期的资产收益波动率通常是一个自相关性不稳定的非平稳时间序列，使用多因子模型进行时间序列回归的话，残差时间序列也可能是非平稳的。因此会造成以下问题：

1 最小二乘法不再是最优线性无偏估计（Best Linear Unbiased Estimation，BLUE），需要采用广义最小二乘法（Generalized Least Square， GLS）进行回归系数估计；

2 残差自相关性导致一些基于残差分析的绩效指标和统计量（信息率和T统计量）不再适用。

因此，如果希望对资产组合的波动率直接进行预测，一般会使用 Garch 模型等时间序列模型。

在 MSCI Barra 的研究报告 <Predicting Risk at Short Horizons> 里面，详细比较过几种预测投资组合波动率的方法，结果显示 USE4 中的方法效果较好。

3 多因子模型预测出的协方差矩阵是否会有发生高度接近奇异的情况？

**答：**有可能。如果因子收益的协方差矩阵是奇异矩阵（一个可能的原因是用于估计的因子收益时间序列较短），则估计出来的资产收益协方差矩阵也可能是奇异的。可以通过采用以下方式进行处理：

（1）增加因子收益的时间序列长度；

（2）采用 USE4 中的 eigenfactor risk adjustment；

（3）使用矩阵收缩（matrix shrinkage）对因子协方差矩阵进行降噪。

4 设我们称风险预测模型中的因子为“风险因子”，称收益预测模型中的因子为“alpha因子”。如果一个alpha因子也入选了风险因子，会对组合优化结果产生什么影响？如果在风险模型中特意剔除所有alpha因子，会对组合优化结果产生什么影响？

**答：**如果一个 alpha 因子进入了风险结构化模型，且在组合优化时对其进行了中性化处理，那么该 alpha 因子理论上不会产生收益。

组合优化中，哪些因子是阿尔法因子，哪些是风险因子，取决于测试结果和投资者本身对于该因子的理解。就一般而言，对越多因子进行中性化处理，资产组合的风险就越低，同时预期收益也会越低；反之风险和预期收益都会增加。

5 BARRA的多因子风险预测模型主要在哪些细节上做了精细处理？

**答：**我已经把 USE4 和 CNE5 背下来了。没有任何细节再让我感觉到精细了。

6 BARRA在不同市场上的多因子风险预测模型之间的细微差异，反映了各个市场的哪些特点？

答：对比 USE4 和 CNE5 的话，USE4 中的因子组比 CNE5 多出了两个：Dividend Yield 和Non-Linear Beta。

对于 Barra 的因子取舍问题，我也存有疑问。从直觉而言，Dividend Yield 在美国市场的的影响力大于中国市场是可以理解的。但从 USE4 给出的统计检验结果来看，Dividend Yield 在美国市场的显著性并不高（T统计量绝对值的均值为 1.37），在所有因子中排名倒数第二。因此在效果不佳的前提下，为什么在 USE4 保留而在CNE5 中舍弃呢？我个人推测如下：

1 CNE5 的模型（2012年发布）比 USE4的模型（2011年发布）更为领先，Barra 发现该因子在中国市场效果同样不佳，予以舍弃；

2 Dividend Yield 在美国长期使用，为了保证模型作为商业化产品的稳定性，没有放弃该因子，而在中国市场没有类似的顾虑；

3 美国的投资者非常关注组合对于 Dividend Yield 的暴露情况，因此作为后面中性化处理的重要维度予以保留，而中国的投资者并不太关心组合对于Dividend Yield 的暴露情况。

Non-Linear Beta 因子是一个数学或者物理意义上设计非常精巧的因子。第一次看到该因子的构建方式时，我有一种 “哇，好漂亮的思路！”的感觉。但我一直不能理解这个因子对应的投资逻辑。

依据这个因子的数学形式和 Barra 的解释，该因子对应一个 “barbell portfolio”，其思路是做空高贝塔值股票和低贝塔值股票，同时做多贝塔值处于中间的股票。也就是说，其投资思路是贝塔值高和贝塔值低的股票有类似的走势，而贝塔值处于中间的股票有相反的走势。

高贝塔值意味着该股票和市场整体走势大致相同，而低贝塔值意味着该股票和市场走势相关性不大，这两类型股票走势相近的合理解释是什么？我其实也不能理解。

7 用日数据vs用月数据估计协方差矩阵，各适用于什么需求？用日内（例如分钟级）数据来估计协方差阵的好处与坏处是什么？

**答：**由于这是一套多因子模型的测试题，因此问题的语境应该限定为 “用多因子模型进行风险预测” ，而不应该是讨论其它协方差矩阵的估计方法（例如单因素模型或者历史协方差矩阵）。如果使用分钟级别的数据，所选的因子必须有一致的时间尺度——这意味不能使用任何基本面因子，而只能使用量价因子。用一套量价因子来做收益预测是完全可行的，但我个人认为，仅仅使用量价因子做风险分解和预测未必妥当。

下面我们仅仅比较月频率和日频率的数据使用：

理论上，Barra 的结构化模型中，相当部分的风险因子都是基本面因子，其时间尺度较大，因此每月计算一次因子收益即可。

但在对因子收益的经验协方差矩阵（empirical covariance matrix）进行估计时，我们会面临以下的两难问题：

1 假定我们的模型中包含20个因子，那么我们至少需要 21 个月的数据。而对于政策变化频繁，投资理念不成熟的中国A股市场，21个月的时间已经足够让市场发生结构性的变化，从而使协方差矩阵的估计失去意义；

2 如果用日频率的因子收益计算，则其中包含的噪音相对较多，而且在得到日频率的因子收益协方差矩阵以后，我们对其进行时间尺度的转换，而且需要对其噪音进行严格控制。

8 怎样衡量或评估风险预测模型的有效性？

**答：**对于因子的有效性，USE 4 主要提到以下标准：

1 选用的因子组应该能够有效把系统性风险分解出来——即特异收益率没有相关性。特异收益率没有相关性也是结构化风险模型的假设之一；

2 在有效分解系统性风险的前提下，因子数目越少越好（parsimony），降低模型过拟合的可能性；

3 持续的统计显著性。对于具体某个因子，我们可以通过多期回归得到一组因子T统计量，如果这组T统计量的绝对值的均值大于2，或者在该组T统计量中，其绝对值大于2的比例较高，则认为该因子有很好的效果；

4 因子暴露度的稳定性。理论上，结构化风险模型更新频率是每月一次，因此因子暴露度时间尺度应该与之一致；

5 因子的共线性。因子之间存在共线性会导致回归系数的估计方差变大，因此在因子选择时应尽量避免出现共线性问题。

6 因子的经济学意义符合直觉。因子意义容易理解，一方面是模型质量的要求；另一方面，在组合优化的时候，我们需要根据自己的理解选择中性化约束。如果因子的意义难于理解，是否有必要对其进行中性化处理自然也无从判断。

除此以外，USE4中，也给出了因子的年化收益率、年化波动率、年化夏普率等指标。但我个人认为，如果以风险预测为目标，这些指标并不是必要的。

对于整个模型的有效性检验，USE4 提到以下标准：

1 可决系数（coefficient of determination)，也就是我们常说的 R^2；

2 Bias Statistics ，这个测试的思路和我们开发策略常用的信息系数类似，是比较模型的预测和实际情况的差距；而基于 Bias Statistics 的 Mean Rolling Absolute Deviation（MRAD）会提供更多关于模型精度的信息。

9 本专栏上一篇文章封面里面，柯南和灰原哀一起困觉时说了什么？！

**答：**对话如下：

柯南：问你一件事情。

灰原：。。。什么？（脸红）

柯南：白天我脸上黏了饭粒吗？

灰原：哈啊？（白眼）

*************** 多因子模型测试题回答结束 ***************

(背景：湘北对阵丰玉，南烈发现完全无法防住流川枫，对其恶意犯规，撞伤他的眼睛，试图阻吓他。)

你认为日本第一的球员会是怎样的球员？

我认为他一定会带领球队成为日本第一。

我想成为这种球员，

所以我一步也不会退让的。

{w:100}

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='768' height='1024'></svg>)

{w:100}

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='768' height='1024'></svg>)

多因子模型水平测试题试答（风险预测部分）

标签