高频数据因子研究系列
由qxiao创建,最终由qxiao 被浏览 43 用户
报告摘要
-
传统多因子选股
在国内A股市场,传统的多因子量化选股模型得到了广泛的应用,在实际表现中,传统的多因子模型在过去几年中也表现出较为稳定的超额收益率。但随着传统多因子模型应用越来越广泛,历史长期有效的因子逐渐失效,对新因子的挖掘提出了迫切的需求。
-
新因子挖掘
传统的因子指标挖掘主要集中于财务报表、个股中低频率的价量等相关的数据维度,而这部分数据维度的增量价值的挖掘已逐渐饱和,需从其他新的数据维度中挖掘新的因子指标,本篇报告从个股日内高频数据出发尝试挖掘出新的因子指标。
-
基于高频数据因子的策略构建
基于个股高频数据,构建了动量因子(momentum)和反转因子(reverse),我们考察了这两个因子在回测区间内对个股收益率的区别度
-
策略实证结果分析
在实证区间内,报告对Momentum, Reverse两个因子指标进行了详细测算。实证结果表明:因子指标对个股收益率区分度不明显,而 在全市场以及中证500中对个股收益率区分度明显。因子指标RSkew在全市场中选股,从2007年至今,IC均值为-0.028,负IC占比为68.7%,多头组合在回测期内表现优异,年化收益率为26.7%,多头组合对冲中证800指数后年化收益率为17.7%,最大回撤为23.6%,信息比率为1.291。因子指标在中证500指数成分股中选股,从2007年至今,IC均值为-0.04,负IC占比为64.6%,多头组合取得了23.10%的年化收益率,多头组合对冲中证500指数后年化收益率为11.20%,最大回撤为5.70%,信息比率为2.076。
-
核心假设风险:
本文所做的数据测算完全基于过去数据的推演,市场未来环境可能发生变化。投资者制定投资策略时,必须结合市场环境和自身投资理念。
一、引言
##略
二、因子构建
若资产收益率X为满足某种概率分布的随机变量,给定置信度α∈0,1,则VaR(X)描述了在α%情况下,收益率X的数值最大为多少。其具体公式定义为:
VaR_α(X) = min{z|Fx(z) >= α}
CVaR的定义是基于VaR定义的派生。给定置信度α∈(0,1),则CVaR(X)描述了在α%情况下,关于资产X的平均损失值。其具体公式定义为:
CVaR_α(X) = E[X|X<=VaR_α(x)]
CVaR尾部风险因子的计算方法
给定置信区间α = 0.05,使用T日的1分钟收益率序列{return_t}计算每日的CVaR值:
CVaR_T = CVaRα(return_t)
具体计算步骤是:计算每日日内收益序列的5%和95%分位数,然后计算收益序列中小于5%分位数的收益均值,得到左侧CVaR值;计算收益序列中大于95%分位数的收益均值,得到右侧CVaR值。 然后计算过去20个交易日的CVaR_T的算术平均值。 特别说明,当日内的分钟线数据小于120个,则当日的CVaRT为nan; 过去20个交易日中,不足10个CVaRT的有效值时,当日的cvar尾部风险因子为nan.
三、实证分析
数据说明
- 样本区间:2020年1月1日至2020年12月31日(以下如无特别说明,2020年至今指的是2020年1月1日至2020年12月31日)
- 样本范围:全市场个股,中证500指数成分股
- 数据频率:个股每个交易日5分钟频率的收盘价、成交量、成交额等数据
策略构建
- 实证区间:2020年1月1日至2020年12月31日
- 选股范围:全市场,剔除上市不满一年的股票,剔除ST股票,*ST股票,剔除交易日停牌的股票
- 分档方式:根据当期个股计算的因子值:lcvar_ma, rcvar_ma,从小到大分为5档
- 调仓周期:周频换仓,Q1档位因子值最小的,Q5档为因子值最大的。
- 参数说明:无
因子特征
首先,分别统计左侧尾部风险因子(lcvar_ma),右侧尾部风险因子(rcvar_ma)在历史上的特征。图:分布,百分比走势分档表现(中证500和全市场)
**特征总结:**利用全市场股票在分钟级的数据计算得到的lcvar_ma的结果,从中可以看出,个股的lcvar_ma在不同时间维度上的变化较为平滑。lcvar_ma呈现明显的左偏分布,在进行因子处理后依旧有较为显著的左偏分布。从时间维度上看,个股的lcvar_ma往往与市场的趋势较为相关;个股的lcvar_ma分布上看,整体lcvar_ma保持在0附近,并且呈较为明显的厚尾状态,从个股lcvar_ma不同百分位时间序列走势上可以看出,lcvar_ma水平整体较为稳定。
实证分析——全市场、中证500因子选股分档表现
以下分别统计全市场个股以及中证500指数成分股计算得到的动量成分,反转成分在历史上的分档表现结果。
首先看lcvar_ma,左侧尾部风险因子在全市场中的分档表现。
从上图可以看出,在周频调仓频率的结果下,因子lcvar_ma在全市场中的分档效果十分明显,对个股收益率区分度良好。
其次看rcvar_ma成分,反转成分在中证500指数成分股中的分档表现。
图
分析
实证分析——中证500选股
中证500选股-IC表现
图:中证500IC值走势
分析
图:中证500lcvar_ma选股-策略净值走势表现
分析
实证分析——全市场选股
全市场选股-IC表现
从上图结果可以看出,lcvar_ma因子指标从2020年至今IC均值为0.08,标准差为0.1,且有80%的IC值的绝对值大于0.02。lcvar_ma的IR值为0.87
从上图的结果可以看出,多头组合策略整体的年化收益率为1.39%,多空组合对冲收益率为-15.26%,信息比率为-11%,策略的最大回撤14.76%,整体换手率在40%左右(数据?)
四、总结
传统的多因子选股策略在国内市场上广泛应用,但最近几年随着市场风格的变换,历史上长期有效的因子逐渐失效,在传统数据维度中对因子的挖掘已逐渐饱和,因此对新因子的挖掘提出了迫切的需求。本篇专题报告从个股日内高频的数据出发,尝试从个股高频数据中挖掘新的因子指标,得到结论:
- 利用个股高频数据构建了个股左侧尾部风险因子(lcvar_ma)和右侧尾部风险因子(rcvar_ma);
- 在全市场以及中证500成分股中详细测算了左侧尾部风险因子,右侧尾部风险因子在选股中的效果。实证结果表明,左侧风险风险因子和右侧尾部风险因子在周频换仓的情况下对个股收益率区分度较高,分档收益单调性明显;
- 因子指标lcvar_ma在全市场中选股,2020至今,IC均值为0.08,各个组合在回测期内表现一般,年化收益为1.34%,信息比率为-11%,最大回撤为14.76%。
五、风险提示
本报告旨在对所研究问题的主要关注点进行分析,因此对市场及相关交易做了一些合理假设,但这样可能会导致基于模型所得出的结论并不能完全准确地刻画现实环境,在此可能会与未来真实的情况出现偏差。本报告内容并不是适合所有的投资者,客户在制定投资策略时,必须结合自身的环境和投资理念。