研报&论文

基于直观逻辑和机器学习的高频数据低频化应用-海通证券-20200424

由qxiao创建,最终由qxiao 被浏览 90 用户

摘要

在系列前期报告中,我们从不同角度探寻了分钟成交数据、TICK盘口委托数据以及逐笔数据中所包含的选股能力。研究结果表明,高频数据中包含着较为显著的选股能力。即使在剔除了常规低频因子的影响后,高频因子依旧具有显著的选股能力。考虑到系列前期报告在研究构建高频因子时,大多仅使用某一类高频数据进行因子构建,并未将相关数据搭配使用。本文从逻辑以及机器学习两个角度出发,尝试将不同类别的高频数据混合使用并构建低频选股因子。

买入意愿与主动买入的结合。总结前期研究成果可知,委托挂单数据中包含了投资者还未释放的交易意愿,而逐笔成交数据中包含了投资者已进行的交易行为。两者的结合能够更加全面地刻画投资者的交易意愿。

买入意愿占比与日内买入意愿强度具有显著的月度选股能力。对于买入意愿占比类因子,开盘后买入意愿占比选股能力较为显著,因子月均IC超0.03,年化ICIR高于3.0,月度胜率达85%。因子多空收益分布较为均匀,月均多空收益为0.98%,月均多头超额收益为0.57%。对于日内买入意愿强度因子,全天日内买入意愿强度、开盘后买入意愿强度以及盘中日内买入意愿强度皆呈现出了极为显著的月度选股能力。因子月均IC普遍高于0.03,年化ICIR普遍高于2.5,月度胜率接近或者高于80%。

买入意愿类因子相比于净主买类因子具有较为明显的提升。以开盘后日内买入意愿强度与开盘后日内净主买强度为例,因子的IC从0.03提升至0.04,年化ICIR从2.96提升至3.70,月度胜率从80%提升至85%,月均多空收益从1.02%提升至1.34%,月均多头收益从0.23%提升至0.41%。部分机器挖掘因子具有一定的逻辑性。Alpha1计算了股票过去20日盘中主买额的波动率,股票前期盘中主买额波动率越低,股票未来表现越好。Alpha4计算了过去1个月开盘后与收盘前的成交额的滚动均值,该指标越高,股票未来表现越弱。Alpha6体现出了类似的逻辑,它计算了过去1个月开盘后与收盘前的成交额之和与过去1个月盘中成交额之和的比值。

机器挖掘因子同样呈现出了显著的月度选股能力。各因子在正交剔除常规低频因子后就已经呈现出了较为显著的选股效果。如果进一步剔除高频因子的影响,机器挖掘因子的月度选股能力会更加显著,因子月均IC普遍高于0.04,年化ICIR接近3.0,月均多空收益高于1.5%。

买入意愿类因子与机器挖掘因子的引入能够带来增强组合表现的改善。以中证500增强组合为例,大部分因子的引入都能给组合的整体表现带来一定程度的提升。相比而言,开盘后日内买入意愿强度、Alpha_2、开盘后买入意愿占比以及Alpha_4带来的收益提升较高。同时引入Alpha_2以及开盘后日内买入意愿强度能够进一步提升模型表现稳定性。

正文

/wiki/static/upload/57/57be9151-6080-4438-a378-aa5b332da467.pdf

\

标签

机器学习高频因子