【研报分享】东方证券:日内残差高阶矩与股票收益

残差
标签: #<Tag:0x00007f5b9200ae98>

(aite) #1

日内残差高阶矩与股票收益 ——东方金工因子选股系列研究之九

研究结论

 随着技术的进步和竞争的加剧,越来越多的投资已经开始关注日内高频数据,高频数据一般指分笔数据(Tick)、快照数据(Quote)以及衍生出来的分钟数据、资金流量数据等,本文涉及主要是日内 5 分钟行情数据。

 本文主要想考察股票的日内价格行为特征和股票未来收益率之间关系,度量股票日内价格行为特征最简单的方法是计算日内收益率的高阶矩(波动率、偏度、峰度),考虑到股票的收益率受市场、市值等风格的影响,我们在计算高阶矩时收益率用 Fama-French 回归的残差替代,分别计算日内特质波动率、日内特质偏度、日内特质峰度三个指标,以 20 日均值作为月度指标。

 通过分析各因子的 Rank IC 序列和分组的业绩表现,我们发现日内残差高阶矩因子(风格中性)的确有预测股票未来收益率的能力。日内特质波动率越低、特质偏度越小、特质峰度越低的股票,未来预期收益率越高。相对之下,日内特质偏度超额收益最明显,且稳定性最高,月度 Rank IC 均值 0.076,IC_IR -1.37,top 组合超额收益 10.0%,多空组合最大回撤 5.29%;

 日内残差高阶矩因子信息衰减速度较快,月度 IC 半衰期在两周左右,因此在使用这些因子时应该适度提高调仓频率或者改进调仓方法,充分利用因子的效率。

 分析日内残差高阶矩因子和其他常见因子的相关性结构,我们有如下发现:
(1)内特质波动率的超额收益来源可以被特异度完全解释;(2)日内特质偏度和日内特质峰度有很高的信息重叠,在控制日内特质偏度后,日内特质峰度几乎失效;(3)日内特质偏度和特异度、换手、价差偏离度等有少量的共有信息成分,但总体仍然相对独立

风险提示
 本文的研究成果基于历史数据,如果未来风格发生重大变化,部分规律可能失效。

目录

一、日内残差高阶矩
1.日内高频数据
2.残差高阶矩
二、因子有效性检验
1.日内特质波动率
2.日内特质偏度
3.日内特质峰度
4.信息衰减速度
5.小结
三、相关性结构
1.秩相关系数
2.因子分层
3.Fama Macbeth 回归
4.小结
风险提示


图 1:日内特质波动率分布
图 2:日内特质偏度分布
图 3:日内特质偏度分布
图 4:日内特质波动率历史表现回溯
图 5:日内特质偏度历史表现回溯
图 6:日内特质峰度历史表现回溯
图 7:日内高阶矩因子月度 IC 衰减速度

表 1:日内特质波动率各分组业绩评价
表 2:日内特质偏度各分组业绩评价
表 3:日内特质峰度各分组业绩评价
表 4:因子值间的秩相关系数
表 5:因子分层多空组合月均收益率
表 6:Fama-Macbeth 回归结果

一、日内残差高阶矩

1.日内高频数据

股票的日内高频数据包括了上交所和深交所所有上市股票每个交易日的每笔交易和报价数据。由于高频的数据量较大,每日可以产生几个 GB 的数据,开发利用的难度相对较大,之前多被国内的投资者忽视,远没有充分挖掘其价值。但近年来,随着计算机技术的发展和国内量化投资的竞争加剧,对新的 alpha 源的需求越来越迫切,国内已有不少投资者已经开始重视高频数据这一尚未被过度开垦的金矿。

目前国内交易所主要提供两种高频数据:分笔数据(Trade)和快照数据(Quote),当然基于这两种数据,我们还可以衍生出分钟行情等其他数据。
分笔数据(Trade):股票逐笔成交的数据,一般包括股票代码、交易时间、成交价格、成交量等字段;
快照数据(Quote):详细的 10 档买卖报价(bid/ask)数据,以及当天累计的成立量、成交额、成交笔数等;
衍生数据:由分笔和快照数据衍生出的分钟行情数据、资金流量数据等。

其中,上交所自 2006 年对外提供高频数据服务,深交所 2009 年底开始提供高频数据服务,因此,从全市场来看,真正有质量的高频数据自 2009 年底开始。本文中主要涉及的是由快照数据生成的 5 分钟行情数据,数据来源于 wind 咨询。

2.残差高阶矩

本文主要想考察股票的日内价格行为特征和股票未来收益率之间关系,度量股票日内价格行为特征最简单的方法就是计算日内收益率的高阶矩(波动率、偏度、峰度),考虑到股票的收益率受市场、市值等风格的影响,我们在计算收益率高阶矩之前先通过 Fama-French 方程剔除市场风格的影响,具体做法如下。每只股票每天利用日内 5 分钟收益率数据回归如下 Fama-French 方程:

1

然后,利用上述回归方程的残差项分别构建日内的特质波动率、特质偏度、特质峰度等指标。

日内特质波动率

日内特质波动率度量的是剔除市场风格后日内收益率的波动水平,交易日 t 的日内特质波动率为:

2
3

2010 年以来 A 股的日内特质波动率均值高达 2.28%,年化 35.5%,相对较高。

4

特质偏度

偏度衡量了随机变量分布的对称性,日内特质偏度度量了在剔除市场风格后 5 分钟线是向上拉升还是向下打压。每个交易日的日内特质偏度度量方法如下:

2010 年以来 A 股日内收益率的特质偏度平均为 0.36,剔除市场风格后呈右偏态,这意味着 A股日内形态大幅向上拉升的 5 分钟线多于大幅向下打压的 5 分钟线。

6

特质峰度

峰度衡量的是随机变量的厚尾特性,峰度越高,尾部越厚。对日内收益率来说,日内特质峰度越高,意味着在剔除市场风格后,日内收益率呈现出大涨大跌的特征。每个交易日日内特质峰度的度量如下:

7

2010 年以来 A 股日内特质峰度均值为 4.7,高于正态分布的 3,相对于正态分布呈厚尾特征。

8

二、因子有效性检验

股票日内高阶矩的度量对 5 分钟收益率的波动和极值比较敏感,对于波动率和峰度尤其如此,一般而言,小市值股票和成长性行业的股票日内波动较大,容易产生比较大的波动率和峰度,偏度取值的波动也更大。为了考察各因子在风格中性下的表现,我们在检验因子之前采用了回归的方法对高阶矩因子(日内特质波动率、偏度、峰度)进行风格中性化处理,具体处理方法如下:

9

用上述回归方程的残差项作为相应的风格中性因子代理变量,下文的因子有效性检验和相关性结构采用的都是风格中性的代理变量。

在本章中,我们利用传统的 IC 和分组检验的方法检验各日内残差高阶矩因子的有效性,同时考察了各因子的信息衰减速度。关于因子检验的细节,有必要进行一些说明:

(1) 因子检验区间为 2009 年 12 月 31 日至 2016 年 7 月 29 日;
(2) 样本空间为同时期的中证全指成分股,避免了新股的影响和退市带来的幸存者偏误(survivor bias);
(3) 每个月计算当月因子值和次月收益率的 spearman 相关系数,各月底的均值我们称之为 Rank IC 均值,均值与标准差之比我们称之为 IC_IR,同时考察各月 IC 的正/负显著比率;
(4) 分组检验时,我们每月底将样本空间中的所有股票按因子取值从小到大分为 10 组,等权构建组合,以市场等权作为基准,考察各分组的表现。

1.日内特质波动率

在《低特质波动,高超额收益》和《投机、交易行为和股票收益(上)》两篇报告中,我们多次验证了低特质波动率的股票拥有明显的正向超额收益,然而,前面几篇报告中提到的特质波动率都是基于日度收益率数据计算的各个交易日间的特质波动率,基于日内 5 分钟收益率计算的日内特质波动率是否依然有显著的收益率预测能力呢?从 IC 的角度看,日内特质波动率的 RankIC 均值-0.075,IC_IR-0.752,正向显著比率 13.3%,负向显著比率 66.7%,日内特质波动率越高,股票平均的收益率越低,然而观察各分组具体的超额收益率,我们发现日内特质波动率的超额收益主要表现在高特质波动率端的负向超额收益,对低特质波动率端的正向超额相对较小。另外,从各分组的夏普比、信息比、月胜率等维度观察,日内特质波动率各分组的单调性也比较明显,日内特质波动率越大的组合综合表现越差。

回溯日内特质波动率的历史表现,多空组合的稳健性一般,最大回撤 15.3%,年化收益率22.02%,但需要注意的是日内特质波动率的多空组合主要是空头端贡献的收益率,目前 A 股由于做空的限制尚不能转化为实际的收益。最后,需要提醒的是,日内特质波动率因子各分组换手水平较高,说明因子取值的稳定性差,组合构建时可能带来较高的换手,从而吞噬较多的收益。

2.日内特质偏度

日内特质偏度衡量的是剔除市场风格后日内收益率的对称性,偏度越大,意味着日内收益率更偏向于向上拉升。无论是从 IC 的角度,还是从分组的角度,都不难看出,日内特质偏度越小的股票,后期超额收益越高。日内特质偏度 RankIC 的均值为-0.076,IC_IR 却高达-1.37,正显著比率 2.7%,负显著比率 70.7%,我们发现日内特质偏度的 IC 均值不算特别之高,但其稳定性令我们震惊,IC 的波动相当之小,2010 年以来仅两个月 IC 出现正显著。从因子各分组的业绩来看,日内特质偏度最小的一个组合,相对市场等权超额收益高达 10.0%,偏度最大的一个组合负向超额收益更加明显,各分组间的单调性明显,从夏普比、信息比、月胜率等指标也不难发现,日内特质偏度越小的股票平均表现越好。

回溯日内特质偏度的历史表现,我们再次验证了其表现的稳定性,多空组合月胜率高达 88.6%,多空组合回撤仅 5.29%,其稳定性在单因子中毫无疑问的处于第一梯队。和日内特质波动率一样,日内特质偏度各分组的换手率较高,在构建组合时需要引起注意。


3.日内特质峰度

日内特质峰度度量的是剔除市场风格后日内 5 分钟收益率的厚尾程度,峰度越大,尾部越厚,意味着收益率的极值更常见。日内特质峰度月底 RankIC 均值-0.060,IC_IR-1.27,从 IC 的均值来看,其获取收益的能力一般,但其稳定性很高,这一点在 IC 的显著性比例上(IC 正显著比例 1.3%,负显著比率 65.3%)也得到了验证。观察日内特质峰度各分组的业绩评价指标,我们也不难发现,日内特质峰度越低的股票,未来的超额收益越高,

日内特质峰度的历史表现我向我们展示了因子表现的稳定性,日内特质偏度多空组合 2010年以来月度胜率77.2%,最大回撤6.63%,和日内特质偏度相对不大,多空组合年化收益率20.78%,略逊于日内特质偏度。最后,同样需要提醒的是,日内特质峰度各分组换手率较高,构建组合时可能带来较高的交易费用。

4.信息衰减速度

日内残差高阶矩因子基于股票日内的交易数据构建,反应了股票的日内交易行为特征,大多数交易层面的因子都有一个特点:信息衰减速度太快。我们通过不同滞后期的月度 RankIC 均值反应因子的信息衰减速度,滞后期是指计算 IC 时涉及到的因子值和次月收益率间的时间跨度, 比如,滞后期为 5 个交易日的 IC 就相对于以月底的因子值和次月 5 个交易日后的一个月收益率做相关系数计算的 IC。IC 的半衰期经常被用来度量因子的信息衰减速度,半衰期越短,信息衰减速度越快。

日内特质波动率、偏度、峰度等因子的 IC 衰减速度都较快,月度半衰期都在两周左右,衰减速度和反转因子相差不大,因此使用日内残差高阶矩因子选股时检验适当提高调仓频率或者改进调仓方法,充分利用因子的效率。

16

5.小结

由于日内残差高阶矩因子的度量对行业、市值等风格比较敏感,我们在因子有效性检验前先对因子值进行了风格中性化处理。

通过考察各因子的 Rank IC 序列和分组的业绩表现,我们发现日内特质波动率、偏度、峰度等因子的确有预测股票未来收益率的能力。日内特质波动率月度 Rank IC 均值-0.075,IC_IR-0.752,多空组合年化收益率22.02%,但其超额收益主要是负端贡献, top 组合超额收益仅 5.3%;日内特质偏度不管是绝对超额收益还是稳定性都优于日内特质波动率,月度 Rank IC 均值-0.076,IC_IR-1.37,top 组合超额收益 10.0%,其稳定性也可以从 IC 的显著性比率和多空组合的最大回撤得到验证,IC 正显著比率仅 2.7%,负显著比率 70.7%,多空组合最大回撤 5.29%;日内特质峰度的表现要略逊于日内特质偏度,月度 IC 均值-0.060,IC_IR-1.27,top 组合超额收益 8.8%,其超额收益也十分稳定,IC 正显著比率仅 1.3%,负显著比率 65.3%,多空组合最大回撤 6.63%。最后,需要提醒的是,日内特质波动率、特质偏度、特质峰度等指标信息衰减速度较快,月度IC 半衰期在两周左右,因此在使用这些因子时应该适度提高调仓频率或者改进调仓方法,充分利用因子的效率。

三、相关性结构

经过前文的分析,我们知道日内残差高阶矩因子的确对股票未来的收益率有一定的预期能力,然而分析各个高阶矩因子之间相互的关系以及高阶矩因子与其他常见因子间的相互关系同样非常重要,一方面,分析相关性关系有助于我们理解其收益背后的真实来源,另一方面,了解各因子相互之间的替代作用之后有助于我们更有效的选取因子构建模型。我们主要通过各因子值的秩相关系数、因子分层后多空组合的表现,以及 Fama-Macbeth 回归三个维度考察日内残差高阶矩因子和其他常见因子间的超额收益。需要提醒的是,下文中提及的
日内残差高阶矩因子已做行业、市值中性化处理。

1.秩相关系数

通过观察各个因子值之间的秩相关系数(各横截面上 spearman 相关系数的均值,表 4),
我们发现:
(1) 日内特质偏度和日内特质峰度秩相关系数高达 0.62,两者之间有很高的信息重叠部分;
(2) 日内特质波动率和特异度高度相关(秩相关系数高达 0.49),与换手、价差偏度度、日内特质偏度、峰度也有一定的信息重叠。

2.因子分层

研究因子两两之间的替代作用,另一个比较常见的方法是因子分层的做法,具体做法如下:

在每个月底按分层因子大小将样本空间内的股票分为 10 层,再在每一层内按分组因子的大小排序,选取每一层内分组因子最小的 1/10 股票作为第 1 组(top 组合),以此类推,每层内分组因子最大 1/10 股票作为第 10 组(bottom 组合),然后比较做多 top 组合做空 bottom 组合的多空组合月均收益率及其显著性。

通过分析因子分层前后多空组合收益率的变化,我们有如下发现:

(1)日内特质偏度可以解释日内特质峰度的绝大多数超额收益来源,反之则不能。根据日内特质偏度分层后,日内特质峰度多空组合月均收益大幅降低(由 1.77%降低至 0.46%),几乎接近于零,相反,在控制日内特质峰度后,日内特质峰度多空组合收益虽有一定回落,但剩余的超额收益依然很明显。

(2)日内特质波动率可以被特异度所替代。在根据特异度分层后,日内特质波动率多空组合月收益率已不显著,相反,在控制日内特质波动率后,特异度多空组合收益仅有小幅回落,因此,我们认为,特异度包含日内特质波动率的超额收益信息 而且拥有额外的能够带来超额收益的信息,特异度能够替代日内特质波动率。

(3)日内特质偏度和特异度、换手、价差偏度度等有部分超额收益源重叠。经过特异度、换手、价差偏离度分层后,日内特质偏度多空组合有小幅回落,相反,经过日内特质偏度分层后,换手率等因子的多空组合也有小幅回落,但剩余的超额收益依然很明显。

3.Fama Macbeth 回归

因子分层的做法仅能判断因子两两间的解释或替代作用,为考察多个因子间的相互作用,我们采用了学术上Fama-Macbeth回归的方法,分析 Fama-Macbeth 的回归结果,我们可以得出如下结论:

(1)日内特质波动率、偏度、峰度,单独来看对未来收益率都有显著的预测能力。这一结论可以从方程(1)、(2)、(3)中的显著性看出。

(2)日内特质峰度的超额收益来源很大程度可以被日内特质偏度等因子解释。方程(4)在方程(3)的基础上加入了日内特质偏度、波动率两个变量后,日内特质峰度变得不显著,在添加其他的一些常见因子后,日内特质峰度也处在显著性的边缘。

(3)日内特质波动率的超额收益可以被特异度等因子所解释。方程(5)在方程(4)的基础上加入特异度等因子后,日内特质波动率变得不显著,在加入市场上常见的其他因子后,日内特质波动率项依然不显著。

4.小结

为了了解日内残差高阶矩因子内部以及与其他常见因子的相互关系,我们从秩相关系数、因子分层、Fama-Macbeth 回归等多个维度考察了因子间的相关性结构,主要有如下发现:

(1)日内特质波动率的超额收益来源可以被特异度完全解释。在经过特异度分层后,日内特质波动率因子失效,在 Fama-Macbeth 回归中,控制了特异度等因子后日内特质波动率也变的不显著。

(2)日内特质偏度和日内特质峰度有很高的信息重叠,在控制日内特质偏度后,日内特质峰度几乎失效。日内特质偏度和日内特质峰度两者间秩相关系数高达 0.62,在经过日内特质偏度分层后,日内特质峰度多空组合收益骤减,几近失效,相反,在经过日内特质峰度分层后,日内特质偏度多空组合收益虽有回落,但依然很显著。在 Fama-Macbeth 回归方程中,解释变量同时加入日内特质偏度和日内特质峰度后,日内特质峰度处于显著的边缘,而日内特质偏度依然很显著。

(3)日内特质偏度和特异度、换手、价差偏离度等有少量的共有信息成分,但总体仍然相对独立。日内特质偏度和特异度、换手、价差偏离度等因子有弱相关性,而且经过因子分层后,多空组合的月均收益也有小幅回落,但依然很明显。在 Fama-Macbeth 回归中,日内特质偏度、特异度、换手、价差偏离度同时用来解释次月收益时,各个因子均十分显著。

风险提示

本文的结论基于对历史数据的研究,如果未来市场风格发生重大变化,部分规律可能会失效,另外高的预期超额收益并不代表 100%的胜率,市场有风险,投资需谨慎。日内残差高阶矩与股票收益。

作者:东方证券金工团队