【研报分享】广发证券:基于日内高频数据的短周期选股因子研究

高频数据
标签: #<Tag:0x00007f5b95c84e00>

(alma) #1

基于日内高频数据的短周期选股因子研究——高频数据因子研究系列一

报告摘要:

 传统多因子选股
在国内 A 股市场,传统的多因子量化选股模型得到了广泛的应用,在实际表现中,传统的多因子模型在过去几年中也表现出较为稳定的超额收益率。但随着传统多因子模型应用越来越广泛,历史长期有效的因子逐渐失效,对新因子的挖掘提出了迫切的需求。

 新因子挖掘
传统的因子指标挖掘主要集中于财务报表、个股中低频率的价量等相关的数据维度,而这部分数据维度的增量价值的挖掘已逐渐饱和,需从其他新的数据维度中挖掘新的因子指标,本篇报告从个股日内高频数据出发尝试挖掘出新的因子指标。

 基于高频数据因子的策略构建
基于个股日内高频数据,构建了已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现偏度(Realized Skewness)𝑅𝑆𝑘𝑒𝑤、已实现峰度(Realized Kurtosis)𝑅𝐾𝑢𝑟𝑡因子指标,考察这三个因子在回测区间内对个股收益率的区别度。

 策略实证结果分析
在实证区间内,报告对𝑅𝑉𝑜𝑙,𝑅𝑆𝑘𝑒𝑤、𝑅𝐾𝑢𝑟𝑡三个因子指标进行了详细测算。实证结果表明,𝑅𝑉𝑜𝑙、𝑅𝐾𝑢𝑟𝑡因子指标对个股收益率区分度不明显,而𝑅𝑆𝑘𝑒𝑤在全市场以及中证 500 中对个股收益率区分度明显。因子指标 RSkew 在全市场中选股,从 2007 年至今,IC 均值为-0.028,负IC占比为68.7%,多头组合在回测期内表现优异,年化收益率为26.7%,多头组合对冲中证 800 指数后年化收益率为 17.7%,最大回撤为 23.6%,信息比率为 1.291。

因子指标𝑅𝑆𝑘𝑒𝑤在中证 500 指数成分股中选股,从 2007 年至今,IC均值为-0.04,负 IC 占比为 64.6%,多头组合取得了 23.10%的年化收益率,多头组合对冲中证 500 指数后年化收益率为 11.20%,最大回撤为5.70%,信息比率为 2.076。

 核心假设风险:
本文所做的数据测算完全基于过去数据的推演,市场未来环境可能发生变化。投资者制定投资策略时,必须结合市场环境和自身投资理念。

1

目录索引

一、 引言
二、 因子构建
三、 实证分析
数据说明
策略构建
因子特征
实证分析—全市场、中证 500 因子选股分档表现
实证分析—全市场选股
实证分析—中证 500 选股
四、 总结
五、 风险提示

图表索引
图 1:广发金融工程多因子选股框架一览
图 2:广发金融工程多因子选股平台一览
图 3:广发金融工程多因子选股平台框架一览
图 4:全市场三个月股价反转因子历史多空收益率表现一览
图 5:全市场三个月股价反转因子 IC 表现一览
图 6:全市场流通市值因子历史多空收益率表现一览
图 7:全市场流通市值因子 IC 表现一览
图 8:全市场个股波动率分布一览
图 9:全市场个股波动率百分位走势一览
图 10:全市场个股偏度分布一览.
图 11:全市场个股偏度百分位走势一览
图 12:全市场个股峰度分布一览
图 13:全市场个股峰度百分位走势一览
图 14:中证 500 成分股波动率分布一览
图 15:中证 500 成分股波动率百分位走势一览
图 16:中证 500 成分股偏度分布一览
图 17:中证 500 成分股偏度百分位走势一览
图 18:中证 500 成分股峰度百分位走势一览
图 19:中证 500 成分股峰度百分位走势一览
图 20:因子指标𝑹𝑽𝒐𝒍全市场选股分档表现
图 21:因子指标𝑹𝑺𝒌𝒆𝒘全市场选股分档表现
图 22:因子指标𝑹𝑲𝒖𝒓𝒕因全市场选股分档表现
图 23:因子指标𝑹𝑽𝒐𝒍中证 500 选股分档表现
图 24:因子指标𝑹𝑺𝒌𝒆𝒘中证 500 选股分档表现
图 25:因子指标𝑹𝑲𝒖𝒓𝒕因中证 500 选股分档表现
图 26:全市场𝑹𝑺𝒌𝒆𝒘因子 IC 值走势一览
图 27:全市场𝑹𝑺𝒌𝒆𝒘因子选股多-中证 800 策略净值走势表现一览
图 28:中证 500𝑹𝑺𝒌𝒆𝒘因子 IC 值走势一览
图 29:中证 500 指数成分股𝑹𝑺𝒌𝒆𝒘因子选股多-空策略净值走势表现一览
图 30:中证 500 指数成分股𝑹𝑺𝒌𝒆𝒘因子选股多-中证 500 策略净值走势表现一览

表 1:广发金融工程大数据研究报告一览
表 2:全市场选股-IC 表现
表 3:全市场选股-IC 分年度表现一览
表 4:全市场多-中证 800 分年度表现一览
表 5:全市场选股换手率分年度统计一览
表 6:中证 500 指数内选股-IC 表现
表 7:中证 500 选股-IC 分年度表现一览
表 8:中证 500 数成分股𝑅𝑆𝑘𝑒𝑤因子选股多-空策略分年度表现
表 9:中证 500 选股多头-500 策略分年度表现一览
表 10:中证 500 选股换手率分年度统计一览

一、 引言

传统的多因子选股策略在国内市场上广泛应用,在过去几年中传统的多因子选股策略在实际运作中取得了较为稳定的超额收益率。在国内市场中,传统的多因子选股框架中,从2007年开始,较为有效的因子主要是反转类以及小市值类的因子。在传统的多因子研究框架中,对因子的挖掘主要集中于上市公司财务报表、分析师预期相关数据以及相对频率较低的价量数据(如开盘价、收盘价、成交额等日频、周频相关的数据维度),调仓的频率也往往集中于月度频率等相对低频的调仓频率。

2
3
4

随着国内市场中对传统多因子选股的应用越来越广泛,以往有效的因子逐渐失效,而且对中低频率价量相关的数据以及财务报表等数据的因子挖掘已经逐渐饱和,已有的数据维度上增量价值信息有限,很难再在当前维度的数据中挖掘出持续有效的新维度的因子,对新的因子的挖掘提出了迫切的需求。同时,在国内市场中,由于小市值效应的长期较为显著的影响,传统的多因子选股策略往往受其影响,如在2017年,市场的风格较以往几年发生了急剧的变化,风格上主要集中于价值蓝筹类个股,传统的反转类、市值类等因子指标失效,市场上的传统多因子选股策略产品经历了较大的回撤。

5
6
7
8

传统的多因子选股框架在因子指标维度上需要进一步丰富和扩展,挖掘出新的有效的因子指标,从当前可切入的数据维度上看,新的因子指标的挖掘主要集中在两大方向,一块为对另类数据的因子指标挖掘,如对股吧、社交媒体、搜索引擎、新闻等另类数据的挖掘,关于另类数据在市场的应用,可以参考广发证券金融工程相关的系列研究成果;第二块为对高频价量相关的数据的因子指标挖掘,如对个股日内盘口数据、日内分钟、秒钟等级别的价量数据的因子挖掘。本篇专题报告将从第二个方向的角度出发,利用个股日内高频的相关数据进行因子指标的挖掘研究。

9

二、 因子构建

在个股高频数据中,主要包括开盘价、收盘价、最高价、最低价、成交量、成交额等指标以及分笔的盘口相关的数据。本篇专题报告主要是对个股的分钟级别的成交相关的数据进行因子挖掘,希望能从中挖掘出有效的因子指标。具体因子指标构建如下:

10

三、 实证分析

数据说明
 样本区间:2007年1月1日至2019年3月27日(以下如无特别说明,2019年至今指的是2019年1月1日至2019年3月27日)
 样本范围:全市场个股、中证500历史成分股
 数据频率:个股每个交易日5分钟频率的收盘价、成交量、成交额等数据策略构建
 实证区间:2007年1月1日至2019年3月27日
 选股范围:全市场、中证500历史成分股,剔除上市不满一年的股票,剔除ST股票、*ST股票,剔除交易日停牌的股票
 分档方式:根据当期个股计算的因子值:已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙𝑡,已实现偏度(Realized Skewness)𝑅𝑆𝑘𝑒𝑤𝑡、已实现峰度(RealizedKurtosis)𝑅𝐾𝑢𝑟𝑡𝑡,从小到大分为5档
 调仓周期:周频换仓,Q1档为因子值最小的,Q5档为因子值最大的。
 参数说明:N=48,𝑛=5

因子特征

首先,分别统计已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现偏度(RealizedSkewness)𝑅𝑆𝑘𝑒𝑤、已实现峰度(Realized Kurtosis)𝑅𝐾𝑢𝑟𝑡在历史上的特征。


个股在分钟级别的数据计算得到的关于个股的波动率、偏度、峰度的结果中可以看出(上图8至图13),个股的波动率在不同的时间维度上变化较大,从波动率分布上可以看出,整个A股市场个股的波动率分布整体上呈现右偏分布,从时间维度上看,当市场趋势行情较明显时候,个股波动率水平整体上呈现上升的趋势;个股的偏度分布上看,整体偏度水平保持在零附近,呈现较为明显厚尾状态,从个股偏度不同百分位时间序列走势上可以看出,个股偏度水平整体较为稳定;从个股的峰度分布上看,与个股波动率水平类似,分布整体上右偏,且样本内个股的峰度水平大部分大于3,呈现厚尾的现象。


利用中证500指数成分股在分钟级别的数据计算得到的关于个股的波动率、偏度、峰度的结果,从中可以看出(上图14至图19),个股的波动率在不同的时间维度上变化较大,从波动率分布上可以看出,中证500指数成分股波动率分布呈现右偏分布,从时间维度上看,个股的波动率水平往往与市场的趋势较为相关;个股的偏度分布上看,整体偏度水平保持在零附近,呈现较为明显的厚尾状态,从个股偏度不同百分位时间序列走势上可以看出,个股偏度水平整体较为稳定;从个股的峰度分布上看,与全市场个股的峰度分布类似,在分布上呈现右偏状态,且样本内个股的峰度水平大部分大于3,呈现出厚尾的现象。

实证分析—全市场、中证 500 因子选股分档表现

以下分别统计全市场个股以及中证500指数成分股计算得到的已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现偏度(Realized Skewness)𝑅𝑆𝑘𝑒𝑤、已实现峰度(Realized Kurtosis)𝑅𝐾𝑢𝑟𝑡在历史上的分档表现结果。首先看𝑅𝑉𝑜𝑙、𝑅𝑆𝑘𝑒𝑤、𝑅𝐾𝑢𝑟𝑡因子指标在全市场中的分档表现。

从图20至图22的结果中可以看出,在周频调仓频率的结果下,因子指标𝑅𝑉𝑜𝑙、𝑅𝐾𝑢𝑟𝑡在全市场中的分档不明显,对个股收益率区分度较差,而因子指标𝑅𝑆𝑘𝑒𝑤在全市场中的分档收益表现明显,对个股收益率区分度明显,分档收益在单调性结果上显著。

其次看𝑅𝑉𝑜𝑙、𝑅𝑆𝑘𝑒𝑤、𝑅𝐾𝑢𝑟𝑡因子指标在中证500指数成分股中的分档表现。

从图23至图25的结果中可以看出,在周频调仓的结果下,因子指标𝑅𝑉𝑜𝑙、𝑅𝐾𝑢𝑟𝑡在中证500成分股中的分档不明显,对个股收益率区分度较差,而因子指标𝑅𝑆𝑘𝑒𝑤在中证500成分股中的分档收益表现明显,对个股收益率区分度明显,分档收益在单调性结果上显著。

综合对𝑅𝑉𝑜𝑙、𝑅𝑆𝑘𝑒𝑤、𝑅𝐾𝑢𝑟𝑡因子指标的分档效果对比,可以看出𝑅𝑆𝑘𝑒𝑤因子对个股收益率的区分度明显,分档收益单调性显著。因此,以下实证结果全部基于周度调仓、𝑅𝑆𝑘𝑒𝑤因子在不同板块上测算。

实证分析—全市场选股

18
19
20

从表2、表3以及图26的结果可以看出,𝑅𝑆𝑘𝑒𝑤因子指标从2007年开始至今IC均值为-0.028,标准差为0.078,在周频调仓的情况下,负IC占比为68.7%。在滚动12期IC的均值也基本上处以零以下的位置,分年度统计中,每一年度的IC均值均为负,且在分年度统计中可以看出,每一年负IC占比基本上在60%以上,除了2007年负IC
占比为54.2%。

21


23

从图27、表4以及表5的结果中可以看出,多头组合策略整体的年化收益率为26.7%,多头组合对冲中证800指数在回测中取得了年化17.7%的收益率,信息比率为1.29%,策略的最大回撤23.6%,整体换手率保持在80%左右。

实证分析—中证 500 选股

24
25
26

从图29以及表8的结果中可以看出,多空策略整体的年化收益率为13.5%,信息比率为1.953。分年度看,多空策略在历史上大部分年度都取得了整的收益率。

30



33

四、 总结

传统的多因子选股策略在国内市场上广泛应用,但最近几年随着市场风格的变换,历史上长期有效的因子逐渐失效,在传统数据维度中对因子的挖掘已逐渐饱和,因此对新因子的挖掘提出了迫切的需求。本篇专题报告从个股日内高频的数据出发,尝试从个股高频数据中挖掘新的因子指标,得到结论:

1、利用个股高频价格数据构建了个股已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现偏度(Realized Skewness)𝑅𝑆𝑘𝑒𝑤、已实现峰度(Realized Kurtosis)𝑅𝐾𝑢𝑟𝑡指标;

2、在全市场以及中证500成分股中详细测算了已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现偏度(Realized Skewness)𝑅𝑆𝑘𝑒𝑤、已实现峰度(RealizedKurtosis)𝑅𝐾𝑢𝑟𝑡因子指标在选股中的效果,实证结果表明,已实现波动(Realized Volatility)𝑅𝑉𝑜𝑙,已实现峰度(Realized Kurtosis)𝑅𝐾𝑢𝑟𝑡在周频换仓的情况下对个股收益率区分度不高,而已实现偏度(RealizedSkewness)𝑅𝑆𝑘𝑒𝑤在全市场以及中证500成分股中的分档收益区分度明显,分档收益单调性明显;

3、因子指标𝑅𝑆𝑘𝑒𝑤在全市场中选股,从2007年至今,IC均值为-0.028,负IC占比为68.7%,多头组合在回测期内表现优异,年化收益率为26.7%,信息比率为0.837,多头组合对冲中证800指数后年化收益率为17.7%,最大回撤为23.6%,信息比率为1.291;

4、因子指标𝑅𝑆𝑘𝑒𝑤在中证500成分股中选股,从2007年至今,IC均值为-0.04,负IC占比为64.6%,多头组合年化收益率为23.10%,多头组合对冲中证500指数后年化收益率为11.20%,最大回撤为5.70%,信息比率为2.076;

五、 风险提示

本报告旨在对所研究问题的主要关注点进行分析,因此对市场及相关交易做了一些合理假设,但这样可能会导致基于模型所得出的结论并不能完全准确地刻画现实环境,在此可能会与未来真实的情况出现偏差。本报告内容并不是适合所有的投资者,客户在制定投资策略时,必须结合自身的环境和投资理念。

作者:广发证券金工团队