【研报分享】东吴证券:“订单簿的温度”系列研究(一)反转因子的精细结构


(bnamor) #1

“订单簿的温度”系列研究(一)反转因子的精细结构

观点

 A股市场是订单驱动型市场。从动力学的角度讲,股票行情的所有演化过程,都能由订单簿(order book)自下而上精确决定。逐笔成交与逐笔委托数据的信息量非常丰富。本系列研究取名为“订单簿的温度”,旨在分享我们在逐笔数据层面的研究心得。

 作为“订单簿的温度”系列研究的第1篇,本篇报告我们从最简单的数据入手,考察了“成交笔数”这个指标。所谓成交笔数,即撮合交易的次数,是从逐笔成交数据中汇总出来的统计量。我们将看到,这个简单朴实的信息量,被用于传统反转因子的改进,有着令人震撼的效果。

 在本报告中,我们借助成交笔数的信息,对传统反转因子进行切割,首次提出一个理想反转因子,其IC均值为-0.057,rankIC均值为-0.070,五分组净值曲线排序良好,且多头组合与其他4组区分显著。多空对冲的年化收益为19.3%,年化波动为7.68%,月度胜率为74.3%,信息比率高达2.51。在剔除Barra风格因子和行业因子的影响之后,信息比率提升至2.97。

 风险提示:模型的测算基于历史数据,市场未来可能发生较大变化。

内容目录

  1. 引言
  2. 反转因子的切割问题
  3. 反转因子的 W 式切割
  4. 理想反转因子
  5. 若干重要的讨论
  6. 风险提示

图表目录
图 1:以往模型的交易行为逻辑
图 2:传统反转因子的稳定性不佳(Ret20 因子,分 5 组,多空对冲)
图 3:反转因子的切割问题
图 4:因子回测(信息比率与月度胜率的计算是按反转因子使用)
图 5:理想反转因子 M 的五分组与多空对冲
图 6:理想反转因子 M 的分年度表现
图 7:因子间的相关系数矩阵
图 8:理想反转因子 M 剔除 Barra 因子与行业因子后的选股能力
图 9: N=20,40,60 三种情况下的切割效果(月度 IC 的均值)
图 10:沪深 300 成分股上的选股能力(多空对冲净值)
图 11:多空对冲收益的累积过程(T+0 为月初建仓日)
图 12:分组比例的影响(纵坐标为 M 因子的信息比率)
图 13:单笔成交金额的日内模式

1. 引言

A股市场是一个订单驱动型(order-driven)的市场。从动力学的角度讲,股票行情的所有演化过程,都能由订单簿(order book)自下而上、精确完备地决定。目前,上海证券交易所对外提供了逐笔成交数据,深圳证券交易所对外提供了逐笔成交和逐笔委托数据,这些逐笔数据的信息含量极其丰富。本系列研究取名为“订单簿的温度”,旨在分享我们在逐笔数据层面的研究心得。

本系列将延续笔者长期以来的报告风格:天马行空地想,字斟句酌地写。近几年来,我们在“高频数据、低频信号”方面的大量研究,受到了量化同行的普遍认可,也成功引领了“高频数据”和“价量行为”的研究潮流。事实上,在笔者心目中,“高频数据”和“价量行为”都不是重要的标签。“从交易行为中寻找alpha”,才是我们这几个系列报告最有价值的内核,也是我们一贯重视的逻辑根基。作为简单回顾,图1罗列了我们以往部分模型的交易行为逻辑。

1

作为“订单簿的温度”系列研究的第1篇,本篇报告我们从最简单的数据入手,考察了“成交笔数”这个指标。所谓成交笔数,即撮合交易的次数,是从逐笔成交数据中汇总出来的统计量。我们很快将看到,这个简单朴实的信息量,被用于对反转因子进行切割和改进,有着令人震撼的效果。这种简单和深刻的强烈对比,让笔者在落笔时仍旧心潮澎湃。在看完报告全文之后,读者会理解这种心情的由来。

2. 反转因子的切割问题

众所周知,A股市场呈现较为显著的中长期反转效应。以20日收益率因子(Ret20)为例,从2010年至2018年期间,月度IC的均值为-0.056,rankIC的均值为-0.061;将其作为反转因子对股票进行排序分组,五分组多空对冲的信息比率为1.20,月度胜率为63.8%。但是,令人遗憾的是,反转效应的稳定性很不理想。从图2我们可以看到,至少对于2013年上半年、2014年下半年和2017年这些时段,反转因子基本失效,市场甚至呈现为动量效应。对40日收益率因子(Ret40)和60日收益率因子(Ret60)的考察,也存在类似的结论。

2

传统反转因子在稳定性上的困难,时常将笔者的思路引向“反转因子的切割问题”。思维的过程是这样展开的。首先,我们注意到,传统反转因子本质上是一段区间的涨跌幅,因此可以很自然地拆分为许多更小的时段。那么,我们可以发问,会不会存在这样的情况:组成传统反转因子的各个时段中,某些时段贡献了很强的反转,而剩余时段只是贡献了很弱的反转,甚至有的是贡献了动量效果?

3

图3的示意图,可以提供切割问题的一个直观图景。我们将传统收益率因子想象为一个柱状体,它的重心(橘色圆点)在水位线下方,其寓意是“传统收益率因子呈现反转效应”。所谓切割问题是说,我们能否找到了一个好的切割方案,使得柱状体被分割为蓝色因子和红色因子两个部分呢?在这个理想的切割方案下,蓝色因子的重心(蓝色圆点)在水位线下方更深处,也即呈现为更强的反转因子;红色因子的重心(红色圆点)则略高于水位线,呈现为弱的动量因子。

##3. 反转因子的W式切割
经过长期反复的摸索,我们找到了一个反转因子的有效切割方案,简称W式切割。具体操作步骤如下:
(1)在每个月底,对于股票s,回溯其过去N个交易日的数据(为方便处理,N取偶数);
(2)对于股票s,逐日计算平均单笔成交金额D(D=当日成交金额/当日成交笔数),将N个交易日按D值从大到小排序,前N/2个交易日称为高D组,后N/2个交易日称为低D组;
(3)对于股票s,将高D组交易日的涨跌幅加总[1],得到因子M_high;将低D组交易日的涨跌幅加总,得到因子M_low;
(4)对于所有股票,分别按照上述流程计算因子值。

W式切割的核心步骤是,按照“单笔成交金额”对交易日进行排序分组[2]。我们以20日收益率因子为例(即N取20),来说明W式切割方案的出色效果。样本空间为全部A股(剔除ST和上市未满60日的股票),回测时段仍为2010年至2018年。统计结果如图表4所示,结论是:M_high因子是非常强的反转因子(rankIC均值为-0.082),而M_low因子是较弱的动量因子(rankIC均值为0.018)[3]。

4

4. 理想反转因子

综合前文的讨论,我们提出一个理想的反转因子M,其定义式如下:
M = M_high–M_low

从定义式我们很容易预判,由于M_high是强反转、M_low是弱动量,M因子大概率会是更强的反转因子。历史回测显示,对于全部A股(剔除ST和上市未满60日的股票),在2010年至2018年期间,M因子的IC月度均值为-0.057,rankIC月度均值为-0.070。如图5所示,五分组的净值曲线的排序良好,且多头组合Group_5与其他4组有更大的区分度。多空对冲的年化收益为19.3%,年化波动为7.68%,月度胜率为74.3%,信息比率高达2.51。图6我们进一步给出了分年度的统计情况。

5
6

5. 若干重要的讨论

关于理想反转因子M,有许多值得深入讨论的方面,以下我们做逐一的阐述:第一,与风格因子的关联。由于M因子是由两个涨跌幅相减得到,我们预判它与传统反转因子的关联会较低,与Beta、波动率等因子的关联可能比较明显。图7给出了M因子与10个Barra因子之间的相关系数矩阵。为剔除风格的干扰,我们把M因子在横截面上对10个Barra因子与29个中信一级行业指数的哑变量进行回归,将残差作为新的选股因子。五分组与多空对冲的净值如图8所示。纯净化后的因子,多空对冲的年化收益为11.3%,年化波动为3.80%,月度胜率为

7
8

第二,参数N的敏感度。本报告提供的切割方案,用于改进40日收益率因子(Ret40)与60日收益率因子(Ret60),同样效果出色。图9是参数N在三种取值下,原始因子与切割后因子的IC值。

9

第三,其他样本空间的情况。理想反转因子在不同样本空间均表现优异。在沪深300成分股中:原始反转因子Ret20的五分组多空对冲年化收益7.2%,年化波动20.4%,信息比率0.35;理想反转因子的多空对冲年化收益15.0%,年化波动12.8%,信息比率1.17。在中证500成分股中:原始反转因子Ret20多空对冲年化收益13.9%,年化波动15.8%,信息比率0.88;理想反转因子的多空对冲年化收益16.3%,年化波动8.2%,信息比率2.00。为方便直观对比,图10给出了在沪深300成分股中,原始反转因子Ret20与理想反转因子M的多空对冲曲线。

10

第四,因子收益的累积过程。在本报告中,因子回测均采用月频调仓。读者可能关心更高频率的交易效果,图11我们展示了N=20时理想反转因子在月初建仓后(全市场股票、分五组),多空对冲收益的累积过程。由于收益累积过程比较均匀,我们定性地判断,可以尝试做周频调仓或半月调仓。

11

第五,高D组与低D组的分组比例。在W式切割方案中,高D组与低D组的交易日,各占回溯交易日的一半,也即N/2个。如果调整分组的比例,效果会有多大的区别呢?我们以N=60为例,将单笔成交金额大的X个交易日作为高D组,将剩余60-X个交易日作为低D组,遍历X的值,分别计算M因子的信息比率,结果如图12所示。不难发现,X在30附近取值,都有很好的选股效果,这个结论支持了“对半分组”的简易做法。

12

第六,交易行为逻辑。我们始终强烈关心量化模型背后的逻辑。在W式切割中,“按单笔成交金额对交易日进行分组”,似乎在暗示:对于大单交易活跃(单笔成交金额高)的交易日,涨跌幅因子有更强的反转特性;相反,对于大单交易不活跃(单笔成交金额低)的交易日,涨跌幅因子有更弱的反转特性。

熟悉我们研究的读者,可能会联想到我们的另一项工作——反转因子的“日内切割”。具体做法是,将每日涨跌幅分为5段:隔夜、第1小时、第2小时、第3小时、第4小时。过去20日的隔夜涨跌幅“加总”成为M0因子,第1小时的涨跌幅“加总”成为M1因子,M2、M3、M4以此类推。我们的实证结论是:M0、M1有弱的动量特性,M2、M3、M4为反转因子,其中M3的反转特性最强,对应每日下午1点-2点的时段。笔者曾经猜想,反转强度日内差异的根源,可能与图13中展示的“单笔成交金额的日内模式”有关。对于全市场平均而言,单笔成交金额在日内呈现“上午高、下午低、1点-2点为全天最低”的特征。按照我们当时的这个猜想,单笔成交金额低的时段,反转特性反而是更强的。

13

这么一来,对于“W式切割”与“日内切割”的解释,似乎产生了令人困惑的矛盾。经过谨慎考虑,我们认为消除矛盾的方法是:承认“单笔成交金额越高,反转特性越强”的基本假设。这个基本假设直接构成了W式切割的交易行为逻辑。对于日内切割的情形,需要特别注意的是,图13给出的只是全市场的统计结果,也就是说,“下午1点-2点单笔成交金额最低”是就全市场平均而言,而不是对“每只股票、每个交易日”都能够成立。从这一点看,“日内切割”与基本假设,并没有产生直接的冲突。笔者对于日内切割的解释,目前倾向于认为是由其他市场交易行为的“日内模式”导致,而非与大单分布直接相关。

最后,我们想讲的是:从实用主义的角度讲,W式切割与日内切割对反转因子的改进效果都相当出色,两者单独使用或联合使用,都是好的选择。此时此刻,如果读者的因子库里,还放着传统反转因子(如Ret20),可以把它扔进垃圾桶里了。

6. 风险提示

模型的测算基于历史数据,市场未来可能发生较大变化。

附注:
[1]这里所说的“加总”,实际上是通过累乘实现,即:
M_high=(1+R1)(1+R2)(1+RN/2) -1 (在高D组交易日上进行累乘)
M_low=(1+R1)
(1+R2)(1+RN/2) -1 (在低D组交易日上进行累乘)
[2]分组指标的寻找,并非一步到位,我们也尝试过其他分组方式,比如按“成交金额”或“成交笔数”分组。下表给出了不同分组方式的效果比较(rankIC均值):
[3]从图4中,很容易注意到,M_high和M_low在回归剔除Ret20之后,一个是强反转,一个是强动量,选股能力大致是对称的。这个结果几乎是必然的。在这里,图3的图景可以为我们提供判断的直觉:所谓“回归剔除Ret20因子”的操作,实际上是将水位线从原来位置调整到橘色圆点所在的高度;显然,红色圆点与蓝色圆点关于调整后的水位线是上下对称的。

作者:东吴证券金工团队