大小单重定标与资金流因子改进-开源金工-20220904
由small_q创建,最终由small_q 被浏览 172 用户
报告摘要
本报告利用逐笔数据重新划分大单/小单,以期识别具有显著选股能力的主力资金,主要内容为三部分:一是介绍资金流的处理方法,“如何捕捉纯净的资金流alpha”;二是拆分资金流的内部微观结构,探寻资金流因子的生效逻辑;三是改进资金流因子并测试其选股效果,因子经过改进后alpha收益显著提升。
资金流因子的两个关键点:识别与修正
大单/小单重定标:逐笔数据包含每笔订单的挂单金额、挂单数量等信息,可用以还原成交订单的挂单信息。我们利用逐笔数据,通过设定44个金额阈值重新划定深市的大小单来捕捉资金流中的主力行为信息。
MOD修正法:从资金流动力学的角度理解,大单资金流与涨跌幅呈正相关源自主力资金买卖的不平衡。本文选取买入卖出金额比作为代理变量(IMB),通过截面回归的方法,剥离反转因素的影响以提纯资金流的Alpha信息。NIR_MOD因子相比NIR因子选股能力明显提升,IR由2.63提升至4.76。
资金流的微观结构分解:小单提供流动性支持
- 我们测试不同金额阈值下NIR_MOD因子的选股表现,结果表明:随着划分大单的金额阈值降低,因子的有效性逐渐减弱,最优的划分阈值并非是20万元,而是更小,例如2万元。低阈值下,NIR_MOD因子在十分组下的多空对冲收益由26.13%提升至32.16%,而多空净值的回撤幅度进一步减小至6.02%;
- 区分大单和小单的Alpha,本文分别测试大单NIR_MOD和小单NIR_MOD的表现,大单的多空收益可以达到年化25%以上,相比小单收益多出4%左右,资金流的Alpha更多来源自主力资金的信息优势而不是小单流动性映射;
- 主动与非主动标签并未贡献明显的增量信息。依据逐笔数据的Type、Side等字段划定主动与非主动交易,我们测试后发现基于主动买卖数据构造的大单NIR_MOD因子选股效果并未获得改进。
分域测试:小票表现更好,大票主力划定阈值较高
在大票为主的沪深300和中证500指数成分股中,主力资金的最优划分阈值是不明确的,并且划分金额相对更高,而在中证1000以及全市场范围内因子的有效性曲线会更“光滑”。我们认为这可能与机构拆单行为有关:
- 机构在大票上交易更多。根据最新的公募持仓明细,截止20220630,公募在中证800上的持仓集中度达到了78.27%;
- 小票上的委托单拆分金额更小。由于小票的流动性不足,主力资金通常会把大额的委托单拆得更细,而在大票上拆分的颗粒度则会更大一些。
基于大小单重定标的资金流因子改进
由参数敏感性测试得知,基于小金额标准(例如,2万元)识别的主力资金因子表现更好,仅在深市范围内测试,低阈值的NIR_MOD 因子多头年化收益达到31.4%,多空IR为4.61,多空净值的整体回撤幅度较小,仅为3.28%。
为了更便捷地利用上述结论,我们将通常的超大单、大单和中单合并,定义为有定价权的“广义主力资金”,进而在NIR_MOD的基础上构造CNIR因子。
在全市场上,CNIR因子的多头年化收益率达到27.86%,IR也提升至4.91;从分域测试效果来看,因子在中证1000上表现要优于沪深300和中证500。
如何高效率识别市场上的交易主体?
从交易行为的维度,我们针对单笔成交金额从分布特征、时序相关性、反转效应三个方面出发,提炼有效的价量因子。例如,我们从“相对大单”中挖掘QUA因子,其选股逻辑来自主力资金的关注度差异:关注度越高,未来股价表现越好。详情参考《高频因子:分钟单笔金额序列中的主力行为刻画》,2022-06-12。
从另类数据的维度,低频股东户数变化因子具有选股能力,而互动易平台实时披露的数据是定期报告披露的有益补充。我们纳入高频股东数据的合成股东变化因子具有收益增强的能力,但增益幅度与所选取的股票池相关。详情参考《高频股东数据的隐含信息量》,2020-12-31。
从资金流向的维度,大单资金往往呈现正向Alpha能力,其源自大单资金的“预见性”。我们通过分析资金流与同期涨跌幅的关系发现,大单资金流强度与同期涨跌幅呈正相关关系,剥离掉涨跌幅因素后因子选股效果有显著提升。详情参考《大单与小单资金流的alpha能力》,2021-06-02。
本文尝试利用逐笔数据重新划分买卖委托单,识别出真正具有显著选股能力的主力资金,主要内容为三部分:一是介绍资金流的处理方法,如何捕捉纯净的主力资金交易行为?二是拆分资金流的内部微观结构,探寻资金流因子的生效逻辑;三是改进资金流因子并测试其选股效果,因子经过改进后Alpha收益显著提升。
资金流因子的两个关键点:识别与修正
大小单的重定标:绝对金额法与相对金额法
上交所和深交所在2013年推出的Level-2行情数据包含了个股每笔成交的详细信息,通过分析每笔订单的委托价格和数量,揣摩背后投资人的交易意图,我们可以从中挖掘出有效的Alpha信息。
例如,委托单的挂单金额大小在一定程度上反映了投资人的资金实力,而大额委托单的背后对应着的是资金实力更强的投资者,往往具备更多的信息优势从而能够在股市的博弈中占据主导地位,即所谓的“大单投资者”或“主力资金”。
市场上关于资金流向策略的研究大多基于绝对金额的划分标准,即所有的成交委托单根据挂单金额划分为四类:超大单、大单、中单和小单。
(1)超大单:挂单金额大于100万元,定义为“机构”;
(2)大单:挂单金额介于20万元至100万元之间,定义为“主力”;
(3)中单:挂单金额介于4万元至20万元之间,定义为“大户”;
(4)小单:挂单金额小于4万元,定义为“散户”。
常规的划分标准应用并不表示其合理性,我们最早在探索逐笔数据信息时发现了其中存在的问题,在该划分体系下的资金流向数据主要有两点缺陷:
(1)划分阈值不合理。该标准共设立了三个阈值,分别为4万元、20万元及100万元。结合挂单金额金字塔(图1)不难看出,“散户”的挂单金额上限实际可能会比4万元更少,而部分股票缺少超大单成交并不能说明机构没有参与交易,有可能是采取了拆单等更为隐蔽的交易方式;
(2)划分体系过于复杂。四种类型委托单的划分方法既不能帮助我们识别出所有交易主体,也不能明确各自所代表的不同对象,容易让人陷入到诸如“某类委托单是否属于机构行为”的无意义论证当中,失去了特征识别模型的简洁和优雅。
挂单金额金字塔:我们统计了每个交易日在不同挂单金额的买、卖单数量,如图1右侧所示。横轴的双侧箭头分别表示卖单笔数和买单笔数,纵轴则表示挂单金额的大小。从形状上来看这比较像是一个畸形的金字塔,底座部分极宽(通常右侧买单会更宽一些),顶部则十分的狭长。统计结论是,大部分订单的挂单金额离4万元都很遥远,中位数大概在1万元,而4万元在80%分位以上,挂单金额在100万元以上的超大单则更是稀少。
根据逐笔数据重新定义大、小单资金是否可行?
逐笔数据中包含了每笔订单的挂单金额、挂单数量等信息,可以还原所有成交订单的挂单信息。目前,划分大、小单的方法主要有两类:绝对金额法与相对金额法。绝对金额法设定某个金额阈值作为统一标准,适用于全市场的所有股票,而相对金额法则是针对不同股票分别设定各自适用的分立标准。
两种方法各有优缺点,我们考虑到相对金额法会面临更多的质疑,例如,同一交易者在两只股票上挂相同金额的订单,仅因为这两只股票价格的高低而将两笔订单视作不同类型的交易者行为,这显然是不合理的。因此,本文以绝对金额方法的思路对通常的划分标准进行改进,引入阈值参数λ来划分大单和小单,挂单金额大于λ万元的视为大单,相反则是以非机构交易者为代表的小单。
重新标定大、小单资金流的步骤如图2所示。在得到每笔订单的划分结果后,我们去统计每个交易日的资金流向数据。
由于上交所的逐笔数据并未包含委托信息,下述统计将重新划定大、小单资金的范围设为深市的股票。同时,为了方便确定最佳的大、小单划分阈值,我们根据金字塔结构特征“由低到高、先密后疏”地选定了0.5、0.6至90、100万元等44个候选值,图3和图4为不同挂单金额下的累计成交占比和数据覆盖情况。
从图3来看,基于44个阈值划分的金额区间,成交金额整体来说分布算是比较平均的,对于我们划定主力资金的范围而言会更加合理一些。在覆盖度方面,大单由于中证1000相比于沪深300的交易活跃度更低,部分大单(100万元以上)的成交金额数据并不存在,导致覆盖度会整体偏低。
资金流与涨跌幅的相关性处理:MOD修正法
股票的资金流向反映了微观供求信息,投资者根据这一信息能够对个股的市场关注及偏好程度有一定程度的了解,从而对投资决策的制定提供帮助。以大单资金流向为例,资金量越大的投资者具备越多信息优势,交易股票获利的概率更大。大单资金流因子则是捕捉聪明资金的交易行为信息的有效工具,下列大单资金流因子均来自AShareMoneyFlow表,定义方式如表1所示。
我们先来观察这些资金流因子在全市场范围内的选股表现,设置如图5所示。
从图中可以看出,基于大单买入金额计算的资金流因子表现较好,NI、NIR、NIPCT因子Rank IC分别为0.056、0.029和0.051,并且三个因子的多空IR均能达到2.5以上,对冲净值回撤幅度小于10%,因子收益较为稳定。基于主动买卖金额计算的大单资金流因子表现整体偏弱一些。
在报告《大单与小单资金流的alpha能力》中,我们讨论了资金流因子的Alpha结构。大单资金流具有正向Alpha,但是内部成分并不单纯。整体可分为正、负两部分,正向Alpha部分非常明显,是直接由大单的信息优势带来的,而负向Alpha部分比较隐蔽:大单净流入伴随价格上涨,因此暴露反转因子而获得负向贡献。
笔者认为大单所夹杂的反转因素,从资金流动力学的角度理解其成因,应该是来自于主力资金买卖的不平衡。本着删繁就简的原则,选取大单(小单)的买入卖出金额比作为代理变量,记为IMB指标:
分别统计每日的大单IMB和小单IMB与涨跌幅的相关性,如图6和图7所示。
可以看出,小单与涨跌幅的相关性较高,一部分成因来自于小单承受了大单的交易压力。金额越小的委托单在交易中的定价能力越弱,作为大单的交易对手方,小单净流入所反映的信息相对会更集中一些,因而与涨跌幅的负相关性更高。而大单资金流与涨跌幅存在显著的正相关,这取决于大单的信息优势,解释逻辑为大单净流入金额越多,说明主力资金越看好股票的未来表现。
若是改变观察的窗口参数N,计算多个交易日的大单IMB指标与涨跌幅,再计算二者的秩相关系数,我们可以观察IMB与涨跌幅相关性的变化情况。图8为统计结果,横轴为计算大单IMB指标和涨跌幅的回溯天数,纵轴对应划定大单资金流的金额阈值,颜色越明亮表示IMB指标与涨跌幅相关系数越高。
从图8中可以看出,大单的IMB指标与涨跌幅,尽管累计了多个交易日的交易信息,二者仍能保持较高正相关,说明主力资金推动价格上涨的逻辑很稳健。而这张图的关键点就在于,最为明亮的区域集中在较短的指标统计周期和较低的大单划分阈值,前者说明主力资金的买卖的信息长期来看更容易隐藏,后者则提示了具有定价权的主力资金可能并非仅是20万元以上的大单。
为了方便后续因子构建,我们将每个交易日计算IMB指标和涨跌幅,然后利用截面回归的方法,消除IMB指标与涨跌幅的相关性影响,从而修正资金流向数据。
以资金流向数据中的大单资金为例,其修正的步骤如下:
(1)统计每个交易日的大单买入和大单卖出的成交金额,记为B和S;
(2)逐个交易日计算下列回归方程,并取残差项ε作为修正系数;
其中,Ret为当日涨跌幅。
(3)基于修正系数反算大单买入和大单卖出的比例关系,并重新分配大单买入和卖出的成交金额。
基于上述步骤的修正方法,记为MOD修正法。基于该方法,我们可以剥离反转因素的干扰,重新测试上述资金流因子,结果如图9所示。笔者将原始资金流加以修正后的资金流数据,用以构造的因子代码后附加上MOD作为区分标识。
从图9中可以看到,修正后的NI_MOD、NIR_MOD和NIPCT_MOD因子相比之前有明显提升,多空IR均提升到3.5以上,主动买卖资金流因子也有一定程度提升,但整体选股效果依旧不如使用买卖金额构造的资金流因子。
在上述六个资金流因子中,NIR_MOD因子的选股效果最好,故后文的测试都将以净流入率因子的构造形式用于刻画大单资金流的Alpha。为了更好观察因子分组的单调性,我们测试该因子在全市场的十分组的表现,对比标准设为修正前NIR因子和修正后NIR_MOD因子的超额收益(图10)和多空对冲净值(图11)。
图10和图11展示了NIR_MOD因子具有比NIR因子更好的单调性,并且多空收益也更高一些,回撤幅度有所降低。修正资金流能够减弱伴随主力资金的价格冲击对因子收益的负面影响,剥离反转效应后,我们能得到更为纯净的资金流因子。若是采用其他资金流的定义方式,笔者测试过NI因子和NIPC因子的分组效果同样有较大幅度的提升,并且多空对冲收益的回撤幅度显著降低。
资金流因子的微观结构
基于资金流的重标数据,我们可进一步探究资金流内部的微观结构。需要事先声明的是,本文所使用的逐笔数据不包括上交所的逐笔委托,无法直接计算每笔委托单的具体挂单金额。为避免数据偏差,本章的测试范围将会集中在于深交所上市的股票池中,我们也曾用沪市的股票样本做过对比,结论差异并不大。
主力资金的泛定义:20万元的大单标准并非最优
主力资金是指在股票市场中能够影响股市、甚至能够决定股市中个股中长期走势的资金,一般为市场中的机构投资者。若能跟踪市场主力投资动向,则可以获取超越市场的投资回报,那么应该如何定义主力资金?
根据通常的判定标准,挂单金额位于20万元以上的资金才被视为主力,但还需要进一步识别其背后所交易主体的行为特征,而这部分资金的定价能力可以通过Alpha因子来捕捉。基于本文第一章中讨论的大单识别标准,笔者利用不同的阈值λ划分得到大、小单的资金流向数据,进而构造资金流因子和测试因子的选股效果。
基于深市逐笔数据计算,资金流因子的参数敏感性测试框架如下:
(1)根据逐笔数据和金额阈值λ划分深市股票的大、小单资金流向数据;
(2)基于MOD修正法调整资金流数据,分别计算得到修正后的大单买入额、大单卖出额,小单的处理则类似;
(3)利用计算好的资金流数据,构造大单(小单)的NIR_MOD因子,并测算因子的选股表现。
首先,我们基于大单的资金流向数据,测试NIR_MOD因子在全市场的五分组表现,选股的历史区间为20130101至201220311,暂不考虑交易费用影响。图12的三张子图分别对应不同阈值下的多空IR、多空收益以及Rank IC。
经过参数测试我们发现,随着划分大单的金额阈值降低,NIR_MOD因子的有效性在逐渐增强,并且当金额低于10万元时基本达到峰值,最优的划分阈值并未等于通常预设的20万元,而是明显要偏低一些(例如,2万元)。
为了对比在20万元和2万元的标准下NIR因子的表现,我们分别测算了这两组资金流的NIR_MOD因子在全市场的十分组的表现,结果如图13和图14所示。
从结果我们可以看出,在20万元的标准下,NIR_MOD因子的多空对冲收益为26.13%,多空净值的回撤幅度较小,仅为7.89%(20201119-20210208),已经具备相对不错的选股能力。而同样是采用资金流修正方法,若是我们把划分主力资金的金额阈值扩展至更低的2万元标准,NIR_MOD因子则会有更加不错的表现,多空对冲收益提升至32.16%,提升了6%的水平,并且回撤幅度更小。
因子标准化方式对测试结论的影响不大。进一步,考虑到不同股票的成交情况可能会对结果不同,我们分别测试不同“标准化”方法下的NIPCT_MOD因子,以及作为对照组的NI_MOD因子,结果如图15和图16所示。
综合上述结果,我们判断具有定价能力的并非仅限于20万元以上的“大单”和“超大单”,而是可以有划定更低的判断标准。
资金流Alpha来自主力资金而非小单
我们通过单一的金额阈值λ来划分大、小单,这样会导致二者天然相关,而资金流的因子收益究竟是来自大单的信息优势带来的正向Alpha,还是小单的流动性提供的负向Alpha?笔者进一步分别测试基于大单和小单资金流构造NIR_MOD因子。图17展示了在不同划分阈值下两个因子的对冲收益。
关于资金流的因子逻辑,可以拆解为两部分来看:从因子的有效性来看,大单NIR_MOD比小单NIR_MOD的选股能力更强,大单的多空收益可以达到年化25%以上,相比小单的因子收益多出4%左右;从因子逻辑来看,小单通常作为交易对手方为市场提供交易流动性,而资金流因子Alpha来源于大单更符合直觉。因此,资金流的最好定义方式是去捕捉主力资金的行为特征。本文后续将会继续对主力资金选股能力进行分析,而小单部分由于有效性偏低不再进行后续讨论和分析。
进一步探究资金的行为特征,我们需要调整一下参数测试的框架:基于相邻两个阈值计算小区间的大单资金流向数据,得到若干组区间资金流后再分别构造因子进行测试。此外,我们将NIR_MOD因子单独拆解成净流入(NI_MOD)和成交金额(AMT)两部分,最后再单独进行参数敏感性测试。
图18和图19分别展示了不同区间的净流入因子和成交金额因子的多空IR,其中,红色的折线表示因子的多空IR,对应左侧的坐标轴;蓝色的阴影部分的大小表示多空对冲收益,为了更直观显示并未对因子方向进行调整,横轴对应收益为0。
观察图18和图19,我们可以总结得到两点信息:
(1)净流入因子随挂单金额的降低因子方向发生改变,并且因子的有效性曲线呈现凸函数变化(图18)。小单部分Alpha较为集中,随着挂单金额提升因子收益会快速降低;大单部分的有效区间相对更宽,14万元以上的资金净流入均有正选股能力;中间部分的资金流单独拎出来并未显示出具备显著的选股能力。
(2)成交金额因子提供稳定的负向选股效果(图19)。整体上,NIR_MOD的分母部分提供了较为均匀的负向选股能力,区间金额较大的一端相对会偏弱一些,但整体的区别并不是很明显。该因子描述的是股票的流动性特征,其Alpha来源主要为流动性风险补偿,也即成交金额越低,未来价格上涨的可能性更大。
从区间资金流测试上,并未发现导致主力资金划分金额偏低的影响因素。但我们推测,NIR_MOD的有效性变化与NI_MOD有关:当主力资金的划定范围逐渐拓宽至中小金额的委托单,将会包括一些信息优势较弱的资金,这也导致了NIR_MOD因子的有效性上升逐渐趋于缓慢。而当划定范围进一步扩大至小单部分,由于负向Alpha的作用,因子的有效性会快速下降,直至衰减为负值时完全等价于常数1。
因此,NIR_MOD因子的有效性曲线会是类似抛物线的形状。
大小单博弈与资金流相关性:小单提供流动性支持
进一步,我们统计了2013年以来,每个交易日的相邻区间资金流的相关系数并取均值,其中金额较大的资金作记为“L单”、而金额较小的资金记为“S单”。图20展示了“L单”和“S单”的净流入之间秩相关系数热力图,我们取每期截面相关性的均值作为展示,颜色越明亮,说明两个区间资金的净流入相关系数越高。
从图20中我们可以直观看出,L单和S单净流入之间相关性具有一定规律,主要有以下三点结构特征:
(1)从“热力值”的水平来看,“热力值”较高的是3万元以下的委托单,而金额偏小的S单与金额较大的L单表现不同程度的负相关,尤其是100万元以上的L单与3万元以下的S单负相关关系最为显著,这表明市场上的流动性主要由数量更多、报价更为频繁的小额委托单提供;
(2)从金额大小来看,资金流并非存在明晰的断层效应。相邻金额区间的净流入具有一定相关性,例如股票A在某日有 1笔30万元左右的买入委托,同期可能会有28万元、29万元等等的委托单跟随,诸如此类。这一现象的解释可有多个,如机构拆单、资金跟随策略等等,但这并不是本文讨论的重点,故不再展开;
(3)从逐笔成交数据的原始匹配上看,我们不难发现,大额委托单的交易对手方主要以小额委托单为主。L单的净流入对应着S单资金的净流出,尤其是S单中金额小于约L单挂单金额20%的那部分委托单,但金额小于约10万元的委托单似乎并不会显著地影响更小的对手单。
从区间资金流的相关性来看,至少在A股市场上,机构或主力的交易行为还是能够通过微观手段来捕捉,但上述结论也会受到一些其他因素的影响。
主力资金阈值的分域差异:小票显著低于大票
在全市场上,划分主力资金的阈值明显偏低,大约在2到3万元之间。而资金行为通常表现出与成交活跃度较高的相关性,因此我们思考:在不同交易活跃度下,划分主力的最优阈值是否存在差异性?
进一步,我们对不同选股域内因子表现分析,分别在沪深300、中证500和中证1000上测试NIR_MOD因子的选股效果,结果如图21所示。
从分域测试的结果来看,最优的划分阈值呈现出明显的风格特征。在大票为主的沪深300和中证500指数成分股中,主力资金的最优划分阈值是不明确的,并且划分金额相对更高。而在中证1000以及全市场范围内测试,主力资金的划分阈值会明显偏低,二者之中的全市场又要更低一些,整体上有效性曲线会更“光滑”。
笔者认为这可能与机构拆单行为有关:
(1)机构在大票上交易更多。根据最新披露的公募基金持仓明细,截止2022年6月30日,在中证800上的持仓集中度达到了78.27%,仅有不到四分之一的比例是小票。若是扩大至中证800+中证1000的范围,非公募持仓比例将会降低至12%。
(2)小票上委托单被拆分的金额更小。由于小票的流动性不足,而大额委托单会造成更大的冲击成本,主力资金会把委托单拆得更细;而在大票上不会有过多的流动性方面的顾虑,委托单被拆分的颗粒度也会更大一些。
为了方便理解NIR_MOD因子的测试结果,我们以简单的模型进行说明。图22展示了因子的Alpha拆解以及有效性曲线。
左图为市场上资金流挂单结构的Alpha拆分。大单具有信息优势而表现出来正向选股能力,小单部分为大单提供流动性,表现为负向选股能力。大、小单的Alpha能力是相对而言的,资金量更大的委托单含有预知信息的概率会更高一些,而随着资金量的减少,其信息优势会逐渐降低,反而提供了市场的流动性。
右图为NIR_MOD因子的有效性曲线,大致为抛物线的形状,我们将其划分为三个区间:最右侧为机构等聪明资金,最左侧为聪明资金的交易对手方,中间则是交易结构中博弈最为激烈的区间。在沪深300、中证500等股票池内,机构投资者频繁地拆单对于原始委托单分布的影响更大,导致大资金的行为信息在这一区间内的变化并不连续,而在中证1000成分股以及其他小票样本内,影响会相对弱化一些。
主动买卖划分:未发现有额外的信息增益
市场中投资者的委托单在时间上有先后顺序之分,可以分为主动单和被动单两种类型。逐笔数据中的Type、Side等字段依据买卖委托单的时间先后顺序,划定了每笔交易是属于主动买入成交或是主动卖出成交。本文根据这一划分统计主动买入金额和主动卖出金额,具体分类方法是:
(1)分别统计每笔委托买单和委托卖单的成交金额;
(2)若某一笔委托单的第一笔分笔成交的标识为(B/S),则将该笔委托整体视为主动委托,也即后续所有的分笔成交均为主动成交;
(3)加总得到个股每个交易日的主动买入金额和主动卖出金额。
根据资金流动力学的底层逻辑:先来的委托单挂在订单簿中等待成交,为市场提供流动性,而后来的委托单则主动促使成交,影响市场价格,而主动买卖数据应该会比买卖成交数据刻画资金流的效果要好。
结合大、小单的划分方法,我们可以得到阈值取2万元的大单主动买入金额和大单主动卖出金额,然后基于资金流的修正方法剥离涨跌幅的负面影响,进而利用这些主动买卖数据分别计算NI_ACT_MOD、NIR_ACT_MOD、NIPCT_ACT_MOD,测试这些因子的选股效果,如图23所示。
对于主动买卖单的划分方法,总结下来可以分为两类:逐笔划分算法和批量划分方法。前者使用与本文相同的逐笔数据,划分每笔委托单的主动买卖方向,后者则是在将一段时间区间的总成交量进行主动买卖划分,也各有优缺点。
从结果上来看,主力资金的划分并未给资金流因子的构造带来信息增量,而本文介绍的主动买卖划分方法并非完全合理,此处仅作为补充测试供读者参考,也欢迎感兴趣的读者与笔者进一步探讨。
基于大小单重定标的资金流因子改进
逐笔信息的低频化应用:从NIR_MOD到CNIR
由上一章的参数敏感性测试得知,基于小金额标准(例如,2万元)识别的主力资金因子表现更好,我们想要利用这其中的超额信息,但是逐笔数据计算因子的实现难度比较大,显然对因子的生产和应用产生了较大的阻碍。
那是否可以有更好的处理方法呢?其实问题比较容易解决,我们将通常的超大单、大单和中单合并,将其定义为具有市场定价能力的“广义主力资金”,进而构造改进后的净流入率因子(记作CNIR因子),其计算步骤如表2所示。
在全市场范围内将CNIR因子分五组测试其有效性,图24展示了因子的Rank IC及其累计值,图25则是五分组的净值曲线,收益稳定性的定义是股票未来收益率的标准差,用以反映因子分组测试中各组解释程度的差异。
CNIR因子整体上来看为非常有效的选股因子,并且多头收益十分显著,因子各组收益的稳定性也比较高,因子逻辑相对稳健。回撤方面,因子多头的最大回撤为48.79%,主要发生在2015年下半年。
本文针对资金流因子的改进,至此共分为两步:一是剔除资金流向数据中的涨跌幅负面影响;二是利用跟随资金的敏感度增强因子收益。为了方便读者更清楚地对比这两步的效用,图26和图27分别展示了 NIR因子、NIR_MOD因子、CNIR因子的多空对冲和多头组合净值曲线。
基于AShareMoneyFlow的大单资金流计算的NIR因子本身就属于有效的Alpha因子。在修正资金流的动量特征后,NIR_MOD因子有了较为明显的提升,多头年化收益率达到24.87%,多空信息比率为4.77。最后,叠加跟随资金增强收益的CNIR因子的收益得到了进一步放大,多头收益提升至27.86%,多空IR为4.91。
因子收益特征:呈现“二月魔咒”,小票上表现更好
我们再来观察因子的月度收益表现,图28展示了因子在全市场五分组下的多空收益。可以看出,CNIR因子在2月份收益会有所降低,其他各个月份的收益相对而言比较均衡,整体的因子收益和胜率都比较高。
2017年以来,CNIR因子在2月份的收益表现大多数在全年尾部,推测可能存在一些使得因子的逻辑失效情况,如近几年的贸易冲突、新冠疫情反复等。
我们基于改进后的CNIR因子测算资金流Alpha在不同选股域的表现,选取沪深300、中证500、中证1000和全样本进行测试。测算多头超额时考虑交易费用,设为买卖双边5‰,测试区间为20150101至20220311,净值基准为对应宽基,全样本的基准为万得全A指数。
在不同选股域内的分组测试,CNIR因子的多空净值曲线如图29所示。
从图29中可以看出,CNIR因子在不同选股域内均有不错的选股Alpha。我们测试发现,该因子的选股逻辑在小盘股的样本池上演绎效果会更好,在全市场上多空信息比率能够达到4.68以上;在沪深300成本股内将样本池分五分组,多空对冲信息比率也有2.21,而中证500和中证100的五分组IR分别为2.66和3.15。
因子相关性分析:与常见因子关联度低
因子相关性层面,我们分别测试了CNIR因子与交易行为因子和Barra风格因子的相关性,结果如图25和图26所示。该因子与我们跟踪的交易行为因子重叠度不高,与理想反转因子和APM因子的秩相关系数分别为-0.146和-0.083,并且与Barra风格因子的相关性也比较低,与规模因子的相关系数低于0.2。
若是剔除掉其他因子的影响,CNIR因子的表现如何?在扣减Barra风格因子的收益之后,CNIR因子的多头收益依旧显著,年化收益达到23.04%,多空对冲收益稳健,信息比率为4.48,多空收益仍有17.4%以上;扣减交易行为因子的收益后,因子的多头和空头损失程度会加重,多空收益为15.25%,但胜率保持在85%。
同时剔除风格因子以及交易行为因子的收益,五分组下CNIR因子的多头仍然相对有效,年化收益为22.18%,如图27所示。其在考虑交易费用后仍有16.7%,相对万得全A指数超额在10%以上,说明该因子具有独立的Alpha源。
持仓分析与复盘
从板块维度来看,我们在中证800的股票池内滚动20个交易日选取100只股票作为持仓,分析所持股票的板块权重分布,如图28所示。
(1)2020年6月至2021年底,主力资金超配大科技板块。受新能源产业链的贡献利好政策,同期电力设备行业指数涨幅达167%,其中不乏资金推动行情;而大消费板块的配置偏好短期的反复性比较高。
(2)主力资金对大金融板块的超配具有避险特征。2022年初至今,A股市场出现了普遍下跌的走势,或许与疫情反复、部分地区经济增速不及预期等有关。而每当资金避险情绪较高的时候,大金融板块凭借高容量起到了一定“蓄水池”的作用。
从行业维度来看,我们根据每期公募基金年报、半年报披露的持仓明细,统计期间所有基金的个股持仓的变动与同期主力资金的净流入额的相关性。图34展示了二者的散点分布,整体上呈现一定程度的正相关关系;图35则是2017年以来每半年度公募持仓个股的市值变动与同期主力资金净流入的秩相关系数。
主力资金净流入能够部分反映公募持仓的变动,除了2018年主力资金小幅净流出与持仓变动相关性较弱以外,二者的秩相关系数保持在0.3左右的水平。
从个股维度来看,我们观察CNIR因子的持仓换手情况。在滚动20日的窗口内计算因子,并且将调仓频率设为20个交易日,测试该因子在全市场五分组的换手率时序变化情况,如图36所示。
多头组合的每隔20日调仓的换手约为70%,换手率并不算高,若是将股票组合的调仓频率提高至双周频、周频甚至更高则会进一步降低。CNIR因子在双周频、周频下因子换手率分别会达到49.03%和34.01%,而每隔3个交易日调整持仓的收益率最高,对应的换手率为25.64%。