因子合成方法实证分析 -华泰金工-20190104
由bigquant创建,最终由bigquant 被浏览 322 用户
摘要
本文测试 6 种因子合成方法,发现最大化IC_IR及最大化IC法效果较好
因子合成是构建多因子选股模型的重要环节,可以提取出一组因子内的重要信息。本文对6种因子合成方法进行测试,从单因子测试结果看,最大化IC_IR及最大化IC法合成的因子效果较好,能大概率战胜等权复合因子。从复合因子稳定性看,除等权法外,主成分分析法得到的第一主成分复合因子最稳定。
因子合成的应用场景主要为降低因子共线性以及生成大类风格因子
因子合成的应用场景主要有两方面: 1. 将共线性比较严重的因子先进行合成,再进行多元回归,可提升回归问题的准确性; 2. 将同一风格大类下的几个细分因子进行合成,可生成用于刻画市场风格状态变化的大类因子(比如用近1个月、3个月、6个月日均换手率因子合成一个换手率大类风格因子)。
因子合成常用方法:等权法、历史收益率加权法、最大化IC_IR加权法等
本文介绍了常用的6种因子合成方式:等权法、历史收益率(半衰)加权法、历史IC(半衰)加权法、最大化IC_IR加权法、最大化IC加权法、主成分分析法。我们按照因子的6个类别(估值、成长、动量反转、换手率、波动率、财务质量因子)分别进行合成测试,所有因子采用统一的行业中性、市值中性的测试框架。首先采用回归法计算因子收益率序列和对应的t值序列,然后计算因子Rank IC值与IC_IR,再结合分层测试法中的多空组合净值变化趋势,综合判别复合因子的有效性与稳健性。
因子合成测试结果:最大化IC_IR及最大化IC法优于其它因子合成方法
对不同类别的因子组合进行单因子测试,结果显示大部分情况下最大化IC_IR及最大化IC复合因子能显著提高复合因子的因子收益率、因子IC_IR、多空组合夏普比率等,并降低最大回撤,战胜等权复合因子及其它因子,且大幅优于原始因子。历史收益率(半衰)加权法有时也能得到很好的合成效果。
复合因子的稳定性:除等权法外,第一主成分复合因子最稳定
本文采用复合因子==前后两期权重的误差及复合因子前后两期的相关系数==来衡量不同因子合成方法得到的复合因子稳定性。等权法是所有因子合成方法里最稳定的方法,因为每期的权重都相同。除等权法外,主成分分析的稳定性次之,但每期权重系数的差异也很小。最大化IC法,历史IC(半衰)加权法的稳定性较差,权重及复合因子的波动较大。
最大化IC_IR法参数敏感性分析:时间窗口T=12效果较好
时间窗口T是最大化IC_IR法的重要参数,对下一期因子IC值的==预测采用了历史T期(单位:月)的均值==,对IC协方差矩阵的预测也采用了历史T期的IC值。本文测试了T=3、6、9、12、24、36时不同类别因子的合成效果。测试结果表明,对大部分因子组合T=12就可以达到很好的效果,对有些因子组合也可以采用T=9、24、36。
风险提示:因子合成方法的回测结果是历史经验的总结,如果市场环境改变,各方法的对比效果可能发生变化。本文所列的因子合成方法只是比较常见的几个,没有囊括全部合成方法,可能存在回测效果更好的方法。因子合成在多因子选股模型构建过程中不是必备的步骤,读者可以自行斟酌,构建适合自己的多因子选股模型。
因子合成方法简介
因子合成是构建多因子选股模型的重要环节。因子合成的应用场景主要有两方面:首先,因子库内一些因子间可能存在多重共线性,若直接进行多元线性回归则会导致结果不准确,在更严重的情况下可能导致回归问题难以求解,若能在回归之前将共线性比较严重的因子进行合成,则可提升多元线性回归的准确性;其次,在观察市场近期因子表现时,经常需要对比估值、成长、波动率等大类风格因子的强弱,以波动率风格因子为例,近1个月、3个月、6个月波动率因子均属波动率风格大类下面的细分因子,难以用某个单因子刻画整个风格大类的表现,这时就需要对若干个有代表性的波动率细分因子进行合成,产生一个合理的有代表意义的波动率风格因子。
本文是华泰多因子系列研究第十篇,在多因子系列首篇报告中,我们系统地阐述了多因子模型的基本理论,详细描述了多因子模型构建的流程,第二篇到第九篇报告则主要聚焦单因子测试分析,依次对估值、成长、动量反转、换手率、波动率、资金流向、财务质量、一致预期因子进行了详细的研究和检验,通过综合对比评价,筛选出能持续获得稳健收益的优质因子。本文的关注点则与前九篇具有一些差别,主要着眼于多因子模型在单因子测试之后的一个比较细致的环节——因子合成,通过详细对比几种合成方法的理论基础和实证效果,并对合成过程中涉及的参数进行敏感性分析,得出各方法的应用特点和适用场景。
接下来,我们将开始介绍因子合成方法的理论基础。常见的方法有==等权法、历史IC(半衰)加权法、历史收益率(半衰)加权法、最大化IC加权法、最大化IC_IR加权法、主成分分析(PCA)法==。对于不同相关性及不同类别的因子,可考虑选用不同加权方式进行合成。在合成过程中,选用不同历史窗口期及不同因子合成数目,对合成效果都有影响。
等权法
所有待合成因子等权重相加,得到新的合成后因子。比如换手率风格因子,将近1个月、3个月、6个月日均换手率因子及近1个月、3个月、6个月日均换手率除以近2年日均换手率因子等权重相加(每个因子权重为1/6),合成新的换手率风格因子,然后再重新进行标准化等处理。
历史因子收益率(半衰)加权法
所有待合成因子,按照最近一段时期内历史因子收益率的算术平均值(或半衰权重下的加权平均值)作为权重进行相加,得到新的合成后因子。此处的因子收益率是指单因子测试之回归法中的因子回归系数(详见第二章第一节)。还是以上一小节的换手率风格因子为例,如果这六个因子的历史因子收益率均值分别是1、2、3、4、5、6,则每个因子的权重分别为:1/(1+2+3+4+5+6)= 1/21、2/(1+2+3+4+5+6)= 2/21、3/21、4/21、5/21、6/21,即为4.76%、9.52%、14.29%、19.05%、23.81%、28.57%。此种方式合成的因子具有==比较大的历史因子收益率==(数学证明比较简单就不展开叙述了),但是由于待合成因子往往具有多重共线性,回归稳定的数值解不稳定,即历史因子收益率可能不稳定,影响合成权重的计算。因子收益率序列在半衰权重下的加权平均值计算过程可以参考下一小节的详细描述。
历史因子IC(半衰)加权法
所有待合成因子,按照最近一段时期内历史RankIC的算术平均值(或半衰权重下的加权平均值)作为权重进行相加,得到新的合成后因子。RankIC的计算方法详见第二章第二节。该方法与上一小节提出的方法基本思想相同,只是核心关注指标有所区别。
我们在此处统一介绍半衰加权法的详细计算方式。若要计算最近一段时期内历史RankIC的算术平均值,我们只需要将每一期的RankIC等权相加,再除以期数即可,而半衰加权每一期RankIC的权重不同,将按照==指数半衰权重进行加权==。半衰加权的基本原则是距离现在越近的截面期权重越大、越远权重越小。这里存在一个参数——半衰期H,其意义为每经过H期(向过去前推H期),权重变为原来的一半,半衰期参数可取1,2,4等。具体来讲,假设对某个因子来说,其过去T期的RankIC序列为矢量ic,分量ic1是距离现在最远一期的RankIC值,ict是距离现在最近一期的RankIC值,w是半衰权重,w1是距离现在最远一期的权重,则的计算公式为:
在实际计算中,上述权重需要归一化,即w_t’=w_t/sum(w_t)。从上式中可以验证,设现在是t期,权重为w_t=2^{(t-T-1)/H},经过H期,w_{t-H}=2^{(t-H-1)/H}/2,即为w_t的一半。
最大化IC_IR加权法
Qian在《Quantitative Equity Portfolio Management》一书中提出最大化复合因子IC_IR的方法。其基本思想是,以历史一段时间的复合因子平均IC值作为对复合因子下一期IC值的估计,以历史IC值的协方差矩阵作为对复合因子下一期波动率的估计,根据IC_IR等于IC的期望值除以IC的标准差,可以得到最大化复合因子IC_IR的最优权重解。==以w表示因子合成时所使用的权重==,IC下向量表示因子IC均值向量,其中各分量表示第k个因子在历史一段时间内的IC均值,==sigma为因子IC的协方差矩阵==。则最优化复合因子IC_IR的问题可以表示为:
上述优化问题具有显式解w=sigma^{-1}∗IC, 对计算出的w需进行归一化。实际上,我们仍然使用==因子的RankIC而非简单IC== (Pearson IC)参与上述计算,后文中若未明确指出,则所有的IC均指代RankIC。
该方法在运用中值得注意的有两点。首先,对协方差矩阵的估计常常有偏差。统计学中以==样本协方差矩阵代替总体协方差矩阵,==但在样本量不足时,样本协方差矩阵与总体协方差矩阵差异过大,另外估计出的协方差矩阵可能是病态的,造成上述优化问题难以求解。因此,在求解权重的过程中,协方差矩阵的估计也是一个重要的问题。
其次,因协方差矩阵估计不准确或存在其它干扰因素,由显式解解出的权重常常出现负数,这与因子本身的逻辑相反,违反了因子的实际意义。我们推荐直接求解上述优化问题,并加上权重为正的约束条件,即求解以下优化问题:
经实际检验,含约束条件的优化问题求解出的权重更为合理,用于合成因子的效果也更好。本报告后面展示的结果亦是通过求解含约束优化问题得到因子权重来进行因子合成。(限于篇幅,通过求解不含约束优化问题进行因子合成的结果就没有详细展示了。)
本报告中采用两种协方差矩阵估计方法,并将结果进行对比。一种是==采用样本协方差矩阵代替总体协方差矩阵 (即直接用历史IC协方差阵进行简单估计),==另一种是采用Ledoit &Wolf(2004) 提出的压缩估计方法,目标矩阵采用单位矩阵,即将样本协方差矩阵向单位矩阵压缩。压缩的具体方法如下。
设矩阵sigma是真实的协方差矩阵,sigma是有限样本下对sigma的渐进一致估计,I是单位矩阵(即目标矩阵),S是样本协方差矩阵。我们要寻找这样一组参数rho1, rho2,使得均方误差最小E(norm(sigma-sigma)^2),这里的范数是矩阵的Frobenius范数,可以用于衡量两个矩阵的差异大小,Frobenius范数越大,两个矩阵差异越大,其定义为:norm(A) = Tr(AAT)^{1/2},N是A的行数。使得均方误差最小的sigma有如下估计式:
设S是X(N行T列矩阵,对应N个因子在T个截面期的因子IC)的样本协方差矩阵,X的第t列为x_t。rho1,rho2的具体表达式如下:
由以上公式可以计算得出rho1,rho2,进而得到经压缩估计的协方差矩阵sigma*。
最大化IC加权法
最大化IC加权法同样也是源于Qian《Quantitative Equity Portfolio Management》一书,与上一小节中提及的最大化IC_IR加权法非常类似。对应的最优化问题为:
其中w和IC的含义同上一小节,V是==当前截面期因子值的相关系数矩阵 (==由于因子均进行过标准化,自身方差为1,因此相关系数矩阵亦是协方差阵)。上述优化问题具有显式解w=V^{−1}*IC,对计算出的w需进行归一化。这样求解出的w可以使得复合因子单期IC最大,如果因子值相关系数矩阵V在不同截面期近似不变,则w也是使得复合因子在历史一段时间的平均IC最大的解(证明详见《Quantitative Equity Portfolio Management》)。
与上一小节相同,我们求解上述优化问题并加约束条件w>=0。对于协方差阵V的估计,我们统一采用压缩协方差矩阵估计方式。
主成分分析(PCA)法
PCA是数据降维的常用方法,由Pearson在1901年提出。PCA 将一组相关性较高的N维数据投影到新的k维坐标上 (k<N),这k 维特征称为主成分,这些主成分之间是不相关的,以达到数据降维的目的。设有N个因子(x1, x2, … , xN)_{T∗N},每个xi是一个T维列向量。主成分分析的具体步骤如下:
由于待合成因子数量不会很多,一般第一主成分即有较高的解释度,本报告==只取第一主成分作为合成后因子==。并且由以上推导过程可以看出,每个主成分都是原始因子的线性组合,因此 PCA 法合成因子的过程也会对应于一组因子权重w。PCA在一般的编程软件上都有内置函数可以直接完成计算,无需自己编写代码,上述过程仅作参考。
PCA法与前面所有方法的不同点在于,PCA只关注因子值矩阵(x1′,x2′,…,xk′)_{T∗k}本身的性质,与因子收益、因子IC等无关。从理论上来讲,它的优势在于,如果因子值矩阵的性质在不同截面期比较稳定,则PCA法求解出的因子权重w也会比较稳定,意味着合成后因子稳定性比较好; 它的劣势在于,由于合成过程不涉及因子收益等信息,==合成后因子不具备明显的经济学含义==,其在未来表现也不一定会优于待合成的几个单因子。
单因子测试方法简介
因子合成的过程中涉及单因子测试之回归法、IC值分析等较多理论基础内容,此处我们仿照本系列前九篇研究报告,对单因子测试方法重新进行回顾。
回归法
回归法是一种最常用的测试因子有效性的方法,具体做法是将第T期的因子暴露度向量与T+1期的股票收益向量进行线性回归,所得到的回归系数即为因子在T期的因子收益率,同时还能得到该因子收益率在本期回归中的显著度水平——t值。在==某截面期上的个股的因子暴露度(Factor Exposure)即指当前时刻个股在该因子上的因子值==。第T期的回归模型具体表达式如下。
在所有截面期上,我们对因子X进行回归测试,能够得到该因子的==因子收益率序列(即所有截面期回归系数构成的序列==)和对应的t值序列。t值指的是对单个回归系数的t检验统计量,描述的是单个变量显著性,t值的绝对值大于临界值说明该变量是显著的,即该解释变量(T期个股在因子X的暴露度)是真正影响因变量(T+1期个股收益率)的一个因素。也就是说,在每个截面期上,对于每个因子的回归方程,我们设
假设检验H0: 𝑎T = 0
备择假设H1: 𝑎T <>0
该假设检验对应的t统计量为:
其中S==E(aT)代表回归系数aT的标准差的无偏估计量。==一般t值绝对值大于2我们就认为本期回归系数aT是显著异于零的(也就是说,本期因子X对下期收益率具有显著的解释作用)。注意,我们在回归模型中加入了市值、行业因子,能在一定程度上规避市值、行业因素对财务质量因子的影响。
回归模型构建方法如下:
- 股票池: 全A股,剔除ST、PT股票,剔除每个截面期下一交易日停牌的股票。
- 回溯区间: 2007-04-30至2018-11-30。
- 截面期:每个月月末,用当前截面期因子值与当前截面期至下个截面期内的个股收益进行回归。
- 数据处理方法:
- 因子列表与计算方法详见下面一章各小节;
- 中位数去极值: 设第 T 期某因子在所有个股上的暴露度向量为Di,DM为该向量中位数,DM1为向量norm(Di-DM)的中位数,则将向量Di中所有大于DM+5DM1的数重设为DM+5DM1,将向量Di中所有小于DM-5DM1的数重设为DM-5DM1;
- 标准化: ==将去极值处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0,1)分布的序列,这样做可以让不同因子的暴露度之间具有可比性。对因子标准化后再用于因子合成。==
- 缺失值处理: 在标准化后、合成因子之前,为了减少由于缺失值对因子权重的干扰,==我们将原始因子的缺失值置0==,再进一步计算因子权重,进行合成。
- 回归权重: 由于普通最小二乘回归(OLS)可能会夸大小盘股的影响 (因为小盘股的财务质量因子出现极端值概率较大,且小盘股数目很多,但占全市场的交易量比重较小),并且回归可能存在异方差性,故我们参考Barra手册,采用加权最小二乘回归(WLS),==使用个股流通市值的平方根作为权重==,此举也有利于消除异方差性。
- 因子评价方法:
- t值序列绝对值均值——因子显著性的重要判据;
- t值序列绝对值大于2的占比——判断因子的显著性是否稳定;
- t值序列均值——与a)结合,能判断因子t值正负方向是否稳定;
- 因子收益率序列均值——判断因子收益率的大小。
IC 值分析法
因子的IC值是指因子在第T期的暴露度向量与T+1期的股票收益向量的相关系数,即
上式中因子暴露度向量XT一般不会直接采用原始因子值,而是经过去极值、中性化等手段处理之后的因子值。在实际计算中,使用Pearson相关系数可能受因子极端值影响较大==,使用Spearman秩相关系数则更稳健一些==,==这种方式下计算出来的IC一般称为Rank IC==。
IC值分析模型构建方法如下:
- 股票池、回溯区间、截面期均与回归法相同。
- 因子暴露度向量先用中位数法去极值(方法论详见上一小节),然后进行市值、行业中性化处理。中性化处理即在截面期T上用因子值(已去极值)做因变量、对数总市值因子(已去极值)及行业因子(0/1哑变量)做自变量进行线性回归,==取残差作为因子值的一个替代==。这样做可以消除行业因素和市值因素对因子的影响。==计算残差向量和T+1期股票收益向量的Spearman秩相关系数作为T期因子Rank IC值。==
- 因子评价方法:
- Rank IC值序列均值——因子显著性;
- Rank IC值序列标准差——因子稳定性;
- IC_IR(Rank IC值==序列均值与标准差的比值==)——因子有效性;
- Rank IC值序列大于零的占比——==因子作用方向是否稳定。==
分层回测法
依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量因子优劣的手段。分层测试法与回归法、IC值分析相比,能够发掘因子对收益预测的非线性规律。也即,若存在一个因子分层测试结果显示,==其Top组和Bottom组的绩效长期稳定地差于Middle组==,则该因子对收益预测存在稳定的非线性规律,但在回归法和IC值分析过程中很可能被判定为无效因子。
分层测试模型构建方法如下:
- 股票池、回溯区间、截面期均与回归法相同。
- 换仓:在每个截面期核算因子值,构建分层组合,在截面期下一个交易日按当日收盘价换仓,交易费用以双边千分之四计。
- 分层方法:因子暴露度向量XT先用中位数法去极值,然后进行市值、行业中性化处理(方法论详见上一小节),将股票池内所有个股按因子从大到小进行排序,等分N层,每层内部的个股等权配置。当个股总数目无法被N整除时采用任一种近似方法处理均可,实际上对分层组合的回测结果影响很小。
- 多空组合收益计算方法:用Top组每天的收益减去Bottom组每天的收益,得到每日多空收益序列r1,r2,…,rn,则多空组合在第n天的净值等于(1+r1)(1+r2),…,(1+rn)。
- 评价方法:全部N层组合年化收益率(观察是否单调变化),多空组合的年化收益率、夏普比率、最大回撤、月胜率等。
三种方法的关系
首先介绍一下回归法和IC值分析法之间的关系。
我们先介绍一个引理。设X,Y为两个向量,则[corr(X,Y)]^2=R^2,其中R^2为线性回归Y=aX+b或线性回归X=aY+b的可决系数(其中a,b是待回归系数)。如果我们在单因子测试(线性回归法) 中使用模型r=beta*X+c (r是股票收益率,X是因子暴露度,c是常数项,c可以理解为市场因子) 并且假设我们在计算因子IC值的时候,不预先对因子暴露度进行市值、行业调整了,就使用原始的因子暴露度 X,则本期因子IC值为corr(X, r),根据引理,因子IC值的平方就等于单因子测试的回归模型的R^2。
所以,因子==IC值本质上反映的是下期收益率和本期因子暴露度的线性相关程度== (R2的平方根),是使用该因子预测收益率的稳健性 (IC值越大,这个因子的收益越稳定,波动越小); 而回归法中计算出的因子收益率本质上是一个斜率,反映的是从该因子可能获得的收益率的大小,这并不能说明任何关于线性拟合优度的信息 (也就是说,因子收益率很大时,也可能出现R2很小的情形); 至于回归法中计算出的t值,==在一元线性回归中t值与R2反映的信息一致 (二者对应关系为,当R^2=0时t值也为0,当R^2=1时t值为无穷大)==,但是由于我们所采用的回归模型包括了行业变量,所以t值仅代表被测因子对股票收益的解释能力 (而不能代表模型的整体拟合优度)。实际计算过程中因子会进行一些预处理,回归方程也有可能引入其它风格变量使其表达形式更复杂,导致IC值和t值无法理论上互推,但前面所述结论的本质不变。
总结一下,IC值反映模型整体线性拟合优度,t值反映被测单因子对模型的解释能力是否显著,因子收益率与前两者差别较大,它反映的是可能获得的收益率的大小,而对这个收益是否稳健未知。
其次介绍一下回归法和分层测试法之间的关系。
假设本期因子值X与下期收益𝑟完全线性相关,满足r=betaX+c。此时IC值绝对值为1,回归法中的因子收益率为beta。并且假设本期因子值X服从[0,1]均匀分布,那么当按因子从小到大等分N层测试时,第i层组合的下期收益为beta(2i−1)/2N+c,多空收益 (第N层收益减去第1层收益)为beta*(N−1)/N,也即说明分层测试法中的多空收益与回归法中的因子收益率具有一定程度的等价关系。实际上因子IC值大部分在 0.1附近波动,所以回归拟合的因子收益率与分层测试下的多空收益也未必完全一致。
合成因子测试结果分析
我们对华泰金工多因子体系中的估值因子、成长因子、动量反转因子、换手率因子、波动率因子、财务质量因子这六大类因子进行类内的因子合成,并测试因子合成效果。所有因子均取自Wind终端API接口。本报告的时间窗口参数选用12个月,即在最大化IC_IR法中,对未来一期IC的预测使用过去12个月的IC均值,对IC协方差矩阵的估计使用过去12个月的IC历史值;在最大化IC法中,对未来一期IC值的预测也使用过去12个月的IC均值。对于每一类因子我们采用以上6种大类合成方法进行合成,并采用华泰单因子测试体系进行复合因子的单因子测试。我们主要将不同方法合成的复合因子与等权复合因子和原始细分因子作比较,考察复合因子是否提高了因子选股能力。分别采用回归法、IC法、分层测试法对因子进行测试。因子均为月频。复合因子的名称及对应合成方法如图表1所示。
如无特殊说明,下文中最大化IC_IR(采用样本协方差矩阵)复合因子简称==最大化IC_IR(样本)复合因子==,最大化IC_IR(采用压缩协方差矩阵)复合因子简称==最大化IC_IR(压缩)复合==因子,==最大化IC_IR复合因子指两者==的综合。在复合因子的测试中,我们重点关注==回归法中的因子收益率及其显著性,IC法中的IC_IR值,分层测试法中的多空组合年化收益率、多空组合夏普比率、最大回撤等==。具体分因子类别测试结果在下文中具体给出。
估值因子
估值因子是一类非常重要的风格因子,投资者能够==根据上市公司估值的高低判断股票当前价格是否合理==,并对该公司的发展前景产生合理预期。我们选取估值因子中表现较好的EP、EPcut、BP、SP因子进行合成,因子描述如图表2所示。在合成因子之前,我们计算了图表2中的因子两两之间的Spearman相关系数均值,如图表3所示。
由上表可知,这四个因子中EP、EPcut相关性比较高。我们将不同方法合成的复合因子进行单因子测试,测试结果如图表4、5所示。
估值因子合成结果分析
从结果看出,最大化IC_IR(压缩)复合因子在回归法、IC法、分层测试法中均表现优秀。相对于等权复合因子和原始因子,最大化IC复合因子的因子收益率、多空组合夏普比率和IC_IR远超等权复合因子,提升效果显著。历史IC加权复合因子表现次之,但也能战胜等权复合因子和其他复合因子。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现最好的最大化IC_IR复合因子进行详细展示,绘制了分层组合相对于基准(中证全指)的净值曲线,及累积RankIC和累积因子收益率曲线,如图表6、7所示。
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表 8 所示。
长期来看,BP因子权重最高,SP因子次之,且两者呈负相关关系;EP和EPcut因子权重较低,两者呈正相关关系。在单因子测试中,BP和SP因子的表现亦优于EP和EPcut因子,因此它们的权重较高,这也是合乎常理的。
接下来我们将比较各合成方法权重的稳定性。在所有因子合成方式中,等权复合因子在细分因子上每期的权重系数都相同,因此是最稳定的合成方式。我们寻找一种方式来衡量合成方式的稳定性,即衡量每期细分因子的权重变化大小。图表9中计算了每期细分因子权重的变化值,计算方式为:设有n个细分因子,t期的权重系数为w1,w2,…,wn,t+1期的权重系数为 w1,w2,…,wn,则t+1期权重的变化值定义为 图表10中计算了==t期复合因子和t+1期复合因子之间的相关系数==,也是一种衡量不同合成方法稳定性的方式。对于等权复合因子来说,每期权重的变化值为0,t期等权复合因子和t+1期等权复合因子之间的相关系数比较接近1,因此复合因子每期权重变化值越小,相关系数越接近1,说明合成方法越稳定。
从图表9中看出,第一主成分复合因子最稳定,最大化IC\_IR复合因子次之,而历史IC(半衰)加权、历史收益率加权、最大化IC复合因子较不稳定。图表10也反映了类似的结论,最大化IC复合因子的相关系数最小,历史IC(半衰)加权、历史收益率加权复合因子的相关系数也较小,而最大化IC\_IR复合因子的相关系数也基本都在0.9以上,第一主成分复合因子的相关系数最接近1,等权复合因子与第一主成分复合因子接近。
成长因子
成长因子是一类非常重要的风格因子,稳定成长的公司会有优秀的股价表现。我们选取成长因子中表现较好的如下 8 个因子进行合成,成长因子均由最新财报数据或 TTM 数据计算得出,因子描述如图表 11 所示。在合成之前我们计算了这 8 个因子两两之间的 Spearman秩相关系数均值,如图表 12 所示。
这8个因子中,营业收入两因子相关性较高,净利润与ROE当季因子相关性较高,其余的相关系数都低于50%。我们分别将这8个因子同时合成、合成4个当季同比增长率因子、合成4个ttm同比增长率因子,并将结果做对比,选取最好的合成方式。测试结果如图表13、14所示。
成长因子合成结果分析
合成8个成长因子时,除第一主成分复合因子外,其余复合因子均战胜了等权复合因子。而其中历史收益率加权复合因子在t统计量、因子收益率、IC_IR、多空组合夏普比率、胜率等方面均大幅优于其他因子。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现最好的历史收益率加权复合因子进行详细展示,绘制了分层组合相对于基准(中证全指)的净值曲线,及累积RankIC和累积因子收益率曲线,如图表15、16所示。
###历史收益率加权复合因子详细展示
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表17所示。
ROE_G_ttm因子的权重较高且不稳定,OCF_G_q因子的权重也较高,其余细分因子的权重差距不大。
为了衡量各合成方法的稳定性,图表18中计算了每期细分因子权重的变化值,图表19中计算了t期复合因子和t+1期复合因子之间的相关系数。
从图表18中看出,历史收益率(半衰)加权、历史IC(半衰)加权复合因子的误差先大后小又变大,最大化IC_IR、最大化IC复合因子的变化接近。从图表19中看出,最大化IC复合因子和历史IC半衰加权复合因子的稳定性较低,第一主成分和最大化IC_IR复合因子的稳定性较高,等权复合因子与第一主成分接近。
动量反转因子
动量反转类因子主要是指过去一段时间内资产的收益率,是一类非常重要的风格因子,动量因子都是给最近若干月的收益率加以不同类型的权重而构成的。我们在动量反转因子中选取表现较好的如下因子进行合成,因子描述如图表20所示。在合成之前我们计算了因子两两之间的Spearman秩相关系数均值,如图表21所示。
这5个因子中,3个月和6个月衰减加权反转因子之间相关性相对最高,其余的相关系数也不算低,整体来讲该类别内部相关性稍大。我们将这5个因子进行合成,复合因子测试结果如图表22、23所示。
动量反转因子合成结果分析
该类因子的合成后效果没有那么突出,但也有一些提升。最大化IC复合因子的表现相对最好,因子收益率、IC_IR、多空组合夏普比率的增幅在30%左右,最大回撤也进一步降低。历史收益率(半衰)加权、历史IC(半衰)加权表现接近,仅次于最大化IC复合因子,也能战胜等权复合因子。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现最好的最大化IC复合因子进行详细展示,绘制了分层组合相对于基准的净值曲线,及累积RankIC和累积因子收益率曲线,如图表24、25所示。
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表26所示。
这5个因子的权重里,exp_wgt_return_3m、exp_wgt_return_6m、return_3m因子的权重波动较大,其余细分因子的权重波动较小,约在0.2上下。
为了衡量各合成方法的稳定性,图表27中计算了每期细分因子权重的变化值,图表28中计算了t期复合因子和t+1期复合因子之间的相关系数。
从图表27中可见,历史收益率半衰加权、历史IC半衰加权出现了误差的峰值,稳定性较低。从图表28中看出,历史收益率半衰加权和最大化IC复合因子的稳定性较差,第一主成分、最大化IC_IR(压缩)和历史IC加权复合因子的稳定性较好。在本组合成中,等权复合因子的稳定性非常高,远远超过了次高的第一主成分复合因子。
换手率因子
换手率类因子主要反映的是过去一段时间内资产的流通性强弱,是一类非常重要的风格因子。我们选取换手率因子中表现较好的如下因子进行合成,采用过去若干月的平均换手率或相对2年内平均换手率的偏离程度作为换手率因子的衡量方法,因子描述如图表29。同时我们计算了这6个因子两两之间的Spearman秩相关系数均值,如图表30所示。
这8个因子中,营业收入两因子相关性较高,净利润与ROE当季因子相关性较高,其余的相关系数都低于50%。
复合因子测试结果如图表31、32所示
换手率因子合成结果分析
总体而言,最大化IC复合因子表现相对最好,最大化IC_IR复合因子表现次之,优于其他复合因子。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现最好的最大化IC复合因子进行详细展示,绘制了分层组合相对于基准的净值曲线,及累积RankIC和累积因子收益率曲线,如图表33、34所示。
最大化IC复合因子详细展示
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表35所示。
bias_turn_6m因子和bias_turn_1m因子的权重最高且波动较大,两者呈明显的负相关关系,turn_3m因子和bias_turn_3m因子的权重较低,且约稳定在0.1之下。为了衡量各合成方法的稳定性,图表36中计算了每期细分因子权重的变化值,图表37中计算了t期复合因子和t+1期复合因子之间的相关系数。
在图表36和37中,历史IC(半衰)加权、最大化IC_IR复合因子均表现出了较低的稳定性,第一主成分、历史收益率(半衰)加权复合因子均表现出了较高的稳定性,等权复合因子与第一主成分复合因子接近。
波动率因子
波动率类因子主要反映的是过去一段时间内资产价格的波动性大小,是关于资产的价格序 列的二阶矩信息(动量反转类因子相当于一阶矩信息),是一类非常重要的风格因子。我们选取波动率因子中表现较好的如下因子进行合成,因子描述如图表38所示。在合成前,我们首先计算了这5个因子两两之间的Spearman秩相关系数均值,如图表39所示。
波动率因子中,1个月波动率和3个月波动率相关性高达84%,1个月特质波动率和4个月特质波动率之间相关性也较高。大部分波动率因子之间相关性较高。对它们及复合因子进行单因子测试,测试结果如图表40、41所示。
波动率因子合成结果分析
合成5个波动率因子时,我们也有类似的结论。最大化IC复合因子在各方面均优于其他复合因子。其次是最大化IC_IR复合因子,除第一主成分外的其余复合因子也能战胜等权复合因子。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现最好的最大化复合因子进行详细展示,绘制了分层组合相对于基准的净值曲线,及累积RankIC和累积因子收益率曲线,如图表42、43所示。
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表44所示。
id2_std_1m因子的权重最高,远高于其他因子,从单因子测试的结果也可以看出id2_std_1m因子的表现最好,因此权重最高是符合人们直觉的。其余四个因子的权重差距不大,除了2017年后std_6m因子的权重忽然上升外,2017年以前各因子权重变化不大,基本在0.2以下。
为了衡量各合成方法的稳定性,图表45中计算了每期细分因子权重的变化值,图表46中计算了t期复合因子和t+1期复合因子之间的相关系数。
在图表45中,历史收益率(半衰)加权、历史IC(半衰)加权复合因子的权重变化误差较大,呈现先减后增的趋势,最大化IC、最大化IC_IR、第一主成分复合因子的权重变化较为稳定。而在图表46中,最大化IC复合因子前后两期的相关系数高于等权复合因子和第一主成分。综合两表可以认为等权复合因子、第一主成分和最大化IC复合因子较为稳定。
财务质量因子
财务报表作为投资者最容易获取的信息,主要反映的是过去一段时间内公司的财务状况和经营情况。通过合理的因子构建方法,财务质量因子可以用于反映企业未来的经营趋势,能在很大程度上帮助我们去预测股票价格的变化趋势。财务因子的描述如图表47所示。本文主要使用的是财务质量类中的盈利因子。
财务质量因子合成结果分析
财务质量因子的合成结果显示,历史收益率半衰加权复合因子的因子收益率、多空组合夏普比率、多空组合年化收益率均高于其他大部分因子,且最大回撤明显降低。第一主成分复合因子虽然结果较好,但由于其因子收益绝大部分来源于2008年,我们认为此类表现不可持续。
综合因子收益率均值、IC_IR、多空组合夏普比率、多空组合年化收益率的表现,我们选出表现较好的历史收益率半衰加权复合因子进行详细展示,绘制了分层组合相对于基准的净值曲线,及累积RankIC和累积因子收益率曲线,如图表51、52所示。
历史收益率半衰加权复合因子详细展示
细分因子权重详细展示
为了更加直观地看出复合因子中各因子占比变化,我们绘制了复合因子中细分因子的权重变化图,如图表53所示。
qfa_roe和qfa_grossprofitmargin因子出现了权重约为0.5的峰值,qfa_roa、nptocostexpense_qfa、roic因子的权重长期较稳定。
为了衡量各合成方法的稳定性,图表54中计算了每期细分因子权重的变化值,图表55中计算了t期复合因子和t+1期复合因子之间的相关系数。
从图表54和55中都可以看出,最大化IC、历史IC(半衰)加权的稳定性最低,第一主成分、历史收益率(半衰)加权、最大化IC_IR复合因子的稳定性都较高,等权复合因子与第一主成分因子接近。
参数敏感性分析
在最大化IC_IR法中,对下一期IC的预测使用了过去12个月的历史IC的均值,对IC协方差矩阵的估计使用了过去12个月的历史IC值。在本节中,我们将调整时间窗口参数T=3,6,9,12,24,36(单位:月)并进行测试,以寻找最优的时间窗口参数。
最大化IC_IR法(样本)
根据图表56和57,我们综合了因子收益率、IC_IR、多空组合年化收益率、多空组合夏普比率,选出了每组合成效果最好的复合因子,可以看出,T=12或24时,大部分因子合成的结果在所有参数T里表现最好,并且都能战胜等权复合因子。在较少情况下,T=6,9,36时表现更好。
最大化IC_IR法(压缩)
根据图表58和59,我们综合了因子收益率、IC_IR、多空组合年化收益率、多空组合夏普比率,选出了每组合成效果最好的复合因子。在回归法和IC法测试中,T=12在大部分合成中能得到最好的效果,在分层测试法中,分别有两组合成中T=9或36表现最好,另有一组因子在T=6或24时表现最好,亦都能战胜等权复合因子。
总结
\1. 本报告介绍了常见的因子合成方法,包括等权复合因子、最大化复合因子IC_IR、最大化复合因子IC、历史收益率(半衰)加权、历史IC(半衰)加权、主成分分析法,并分别对估值因子、成长因子、动量反转因子、换手率因子、波动率因子、财务质量因子进行了合成及单因子测试。根据测试结果,因子合成基本能使得复合因子具有优于原始因子的选股能力。
\2. 对于大多数因子组合来说,最大化IC_IR或最大化IC复合因子能提高复合因子的因子收益率及其显著性,多空组合的年化收益率较高,最大回撤也有所降低。在某些情况下,历史收益率(半衰)加权复合因子表现也较好。实际应用中采取哪种合成方法,需结合具体的合成因子决定。其中历史收益率(半衰)加权和历史IC(半衰)加权的表现也受其他因素影响,与半衰期参数和历史回看期窗口参数有关,结果不能一概而论。
\3. 从合成的稳定性来看,等权法无疑是最稳定的,每期的权重都相同。除等权法外,主成分分析、最大化IC_IR法的稳定性也较高,表现在每期细分因子权重变化较小和复合因子值前后两期的相关系数较大,而相比之下,最大化IC、历史IC(半衰)加权的稳定性稍低。
\4. 从参数敏感性分析来看,在T=3时因子合成的效果较差,甚至不能战胜等权复合因子,因为时间窗口过短,历史数据不足以对未来IC值和IC协方差矩阵形成准确预测。大部分因子组合在选取T=12时就能得到较好的合成效果,也有一部分因子组合采用T=9、24或36时能得到最佳的合成效果。
\5. 相关性过大的因子在合成时容易造成因子的协方差矩阵估计不准确,从而对最大化IC_IR的结果产生影响。相关性极强的因子建议采用主成分分析法,有一定相关性的因子往往也意义相近,采用最大化IC的方法可以战胜等权复合因子。因子合成的数目不宜过多,因为这样会损失较多有效因子的信息,本文均采用同一类别的因子进行合成,在保有一定相关性的同时进行合成,数目较少但效果较好,本文选取的合成因子组合基本都得到了表现更好的复合因子。
风险提示
价值投资策略的效果会受到市场环境影响,报告中的策略回溯效果只能代表历史,不能预测未来;报告中提及的具体价值指数只是比较常见的几个价值指数,并不能说明 A 股市场全部价值指数的情况;报告中涉及到的价值指数及基金产品分析内容不代表任何投资意见,请投资者谨慎、理性地看待。