`

维度解耦的 22 个长短单因子:海量 Level 2 数据因子挖掘系列(二)

创建于 更新于

摘要

本报告基于Level 2逐笔订单数据,构建长短单因子并采用维度解耦方法,筛选出表现优异的22个长短单因子组合。通过500余天的实证回测,精选长短单因子组合在A股全市场及主要板块均实现显著超额收益,示范了基于订单成交完成时长构建因子的有效性和稳健性,为量化选股提供新的方向与方法 [page::0][page::3][page::4][page::10][page::17][page::18]。

速读内容


Level 1 与 Level 2 行情数据介绍 [page::3][page::4]

  • Level 2数据包含更高频率和更丰富的快照数据及逐笔订单数据,是所有行情数据的根源。

- 逐笔订单数据包含成交时间、价格、数量和买卖订单号等,支持更细致的因子挖掘。

长短单因子的定义与构建 [page::4][page::5]

  • 通过统计订单成交完成时间,将完成时间超过均值+N倍标准差的订单定义为长单,其他为短单。

- 构建了多个长买单、长卖单及其组合因子,短单因子实际由长单因子推导,采用高斯分布进行阈值设定。
  • 因子表现优异,20天换仓的LongBuySell1p0因子RankIC达到11.7%,多头年化收益21.78%,夏普比率1.49。



订单维度解耦的长短单因子分析 [page::7][page::8][page::9]

  • 长短单进一步拆解为长买长卖、长买短卖、短买长卖、短买短卖四种属性,构建12个解耦因子。

- 其中ShortBuy
ShortSell_1p0表现突出,多空组合年化收益高达55.43%,最大回撤15.19%,夏普比率3.08。

精选长短单因子组合及回测表现 [page::10-16]

  • 采用因子值排序,构建Top-K组合,20日换仓,双边千三交易费用。

- 全市场Top-150组合年化收益21.41%,最大回撤18.7%,夏普比率1.31,显著跑赢中证全指年化收益-8.5%。
  • 创业板Top-150组合年化收益21.52%,2023年达25.69%,最大回撤9.39%,夏普比率1.76,远超创业板综指-5.39%。

- 沪深300Top-50组合年化收益6.61%,夏普比率0.35,跑赢同期沪深300指数-13.79%。




其他板块表现 [page::14-16]

  • 中证500、中证800、中证1000板块均表现优异,最高年化收益超10%,均跑赢对应指数。

- 收益稳定,夏普比率均在0.3以上,最大回撤控制较好。

风险提示与研究展望 [page::18]

  • 量化模型伴随历史数据的统计性质,政策与市场结构变化可能导致因子失效。

- 未来进一步深挖Level 2海量数据,挖掘更多有效因子,提升投资策略稳健性与适用性。

深度阅读

广发证券研究报告详尽解构分析


——《维度解耦的22个长短单因子》海量Level 2数据因子挖掘系列(二》



---

1. 元数据与报告概览


  • 报告标题:《维度解耦的22个长短单因子》

- 系列与专题:“海量Level 2数据因子挖掘系列”第二篇,以Level 2订单数据为核心探讨
  • 作者及机构:广发证券发展研究中心,首席分析师安宁宁主导

- 发布日期:2024年7月相关数据截止至2023年底
  • 研究主题:运用海量Level 2逐笔订单数据,构建并解耦“长短单”因子,选取优质因子构建量化组合,实证其在多市场板块下的有效性

- 核心论点及目标:通过对Level 2逐笔订单成交完成时间的统计,界定长单与短单,解耦订单维度,形成22个长短单占比因子;从中筛选出表现优异的因子组合,并验证其在A股多个板块中的超额收益能力,最终目的是为投资者提供一个基于深度订单数据挖掘出的具有投资指导意义的有效量化因子组合方案,本报告表明精选长短单因子组合在2021-2023年间整体获得显著的正收益和优于市场基准的超额收益。

总结:本报告延续此前多维度大小单因子研究,创新性地聚焦订单成交完成时间这一维度,利用统计方法界定长短单并深度解耦订单维度,提出新量化因子及其组合,展示其在多个市场板块中的稳健收益表现,强调了Level 2数据及订单解耦分析对量化研究的重要价值。[page::0][page::3][page::17][page::18]

---

2. 逐节深度解读



2.1 Level 1 与 Level 2 行情数据介绍


本节强调量化投资关键在于充分掌握市场数据与规律。Level 1数据较为基础,主要为3秒快照(Snapshot)数据,包含有限的价格及成交信息;而Level 2数据尤其是逐笔订单数据(Tick),数据频率高,信息粒度细,包含了详细的订单时间(精确至毫秒)、价格、数量、订单号及类别等,是真正行情数据的根基。利用Level 2数据可挖掘更加丰富的价格趋势和交易信号,突破传统数据的局限。[page::3][page::4]

2.2 长短单因子构建

  • 核心方法:订单撮合中,单笔委托成交可能被拆解成多个成交,成交时间不统一。基于逐笔订单的成交完成时间,统计成交时长分布,界定“长单”与“短单”。

- 统计模型:假设成交完成时间服从高斯分布(图1示意),长单为成交时间大于均值加N倍标准差(N=1.0,1.5,2.0)的订单,占比分别约为15.8%,6.7%,2.3%。基于此定义提取“长买单占比因子”、“长卖单占比因子”等,因长单占比和短单占比呈线性相关,短单占比因子无需额外构建。
  • 背后逻辑:成交完成时间长短差异反映市场参与者交易行为或流动性特征,能够挖掘出订单执行的异质性信息。

- 实证指标:多次回测表明此类因子在不同换仓周期及平滑处理后均保持一定的有效性,具体数值将在图表解读部分详述。[page::4][page::5]

2.3 从订单维度解耦长短单因子

  • 创新点:长短单因子可以分解为乘积订单属性,即长买单+长卖单、长买短卖、短买长卖、短买短卖4种维度的组合,本文基于三种阈值构造了12个订单维度解耦的长短单占比因子。

- 实证验证:多次数据信息量显示,特别是“长买单短卖单”、“短买单长卖单”、“短买单短卖单”三个因子表现突出,尤其是短买短卖单因子表现出负相关(负向RankIC),在多空组合中贡献突出出的年化收益率,表明市场上的复杂订单结构信息对行情有重要的预测价值。
  • 解耦方法:区别于前期大小单因子还做时间维度解耦,这里因长短单本身即涉及成交时间维度,故未进行额外的时间维度解耦,防止过度分解。

- 风险与局限性:部分因子在胜率、最大回撤等风险指标上波动,显示该类因子受市场结构变化敏感,需要结合市场环境进行动态使用。
  • 回测环境:5日与20日不同换仓周期,以及平滑处理的因子版本均验证了指标的鲁棒性。[page::7][page::8][page::9]


2.4 精选长短单因子组合

  • 组合构建规则:从22个长短单因子基础上,挑选表现优异的构建精选因子组合,采用Top-K策略,基于因子排序选取前30~200只股票,20交易日换仓,双边0.3%交易费用模拟真实交易环境。

- 全市场表现:(2021-2023年)RankIC均值高达13.2%,胜率80.5%,Top-150组合年化收益率21.41%,最大回撤18.7%,夏普比率1.31,远超同期中证全指-8.5%收益,表现稳健且具有实用价值(图2,表10)。
  • 创业板表现:RankIC相同为13.2%,胜率80.3%,Top-150组合年化收益率21.52%,2023年更高达25.69%,夏普比率1.76,远超创业板综指负收益,显示精选因子组合对成长股的较好捕捉能力(图3,表11)。

- 沪深300表现:相对中证全指表现稍弱,但依旧取得正收益和超额收益(Top-50年化6.61% vs. 沪深300-13.79%),表明该因子组合在大盘蓝筹市场依然有效(图4,表12)。
  • 中证500、800、1000表现:均实现超额收益,排名整体换仓频率和收益风险指标均表现良好,说明本组合具备较好的市场适应性与稳定性(图5-7,表13-15)。

- 交易策略公告:明确采用日均价买入卖出,控制滑点和费用影响,模拟环境真实。
  • 风险提示:因模型基于历史数据,市场政策、交易结构变化可能导致失效,并且不同量化模型有结果差异,使用需谨慎。

[page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::18]

---

3. 图表深度解读



3.1 图1:高斯分布示意

  • 描述:标准正态分布的概率密度曲线,标记了均值$\mu$及$\pm1\sigma, \pm2\sigma, \pm3\sigma$位置及对应覆盖面积(68.27%,95.45%,99.73%)。

- 解读:用于支撑长单口径定义,长单阈值设置为完成时间超过均值+$N\sigma$以统计罕见且持续较长时间的订单完成情况,是因子构建的理论基础。
  • 关联文本:支持第2章节因子界定方法,令因子解释更具统计学合理性。[page::5]


3.2 图2(页0)、图2(页10)、图3(页12)、图4-7(页13-16):精选因子组合净值表现曲线

  • 描述:各图展示不同市场板块及不同Top-K股票组合的净值增长曲线,横轴为日期(2021年初至2023年底),纵轴归一化净值。

- 解读:
- 所有图中Top-K组合曲线均显著上升,远超橙色标记的板块基准指数净值走势,表明因子组合在整个回测期内均保持正向且相对稳定的收益。
- 净值线之间变化不大,说明不同Top-K组合规模均能实现较好收益,具有一定的规模适应性。
  • 关联文本:通过视觉直接体现组合较市场指数明显的超额收益能力,支持报告的主要结论。[page::0][page::10][page::12][page::13][page::14][page::15][page::16]


3.3 表2~表9:长短单因子及其解耦版本的回测统计数据

  • 描述:表格列明因子名称、RankIC均值(因子预测能力指标)、胜率(因子有效率)、多头与多空组合年化收益率、最大回撤率及夏普比率等指标,涵盖了不同换仓周期(5天、20天)及平滑处理版本。

- 解读:
- 因子RankIC均值普遍在5%-11%区间,说明因子具有稳定的信息预测能力。
- 多头组合年化收益率多达20%以上,最大回撤均低于20%,夏普比率高于1,显示良好的风险调整回报。
- 多空组合表现出更高的年化收益率和夏普比率,表明因子可用于构建多空对冲策略。
- 解耦后因子进一步提高了因子信息含量,多空组合表现尤为突出,ShortBuy_ShortSell因子表现出较强的负向预测能力。
  • 关联文本:支撑第二章中长短单因子及其解耦的有效性,提供数字化证据佐证因子优异表现。[page::6][page::7][page::8][page::9]


3.4 表10~15:精选长短单因子组合在不同板块的年度表现统计

  • 描述:表中统计不同Top-K组合在不同年份的年化收益、最大回撤、换手率、波动率、夏普比率和信息比率。

- 解读:
- 各板块Top-150或Top-100组合均表现出持续的正收益,其夏普比率多数大于0.5,显示风险回报良好。
- 2021年整体收益最高,2023年较2022年有所恢复但波动增加,适合说明因子在市场行情不同阶段的表现差异。
- 相较对应板块的基准指数收益及波动,精选因子组合表现出显著的超额收益和更低波动率,验证了因子组合的策略稳定性。
  • 关联文本:验证精选长短单因子通用性与适应性,说明组合模型适用于多样市场环境及投资范围。[page::10][page::11][page::12][page::13][page::14][page::15][page::16]


---

4. 估值分析



本报告主要为量化因子研究及组合回测,未涉及具体公司估值模型(如DCF、相对估值等),因此无传统意义上的估值分析部分。但报告通过RankIC、胜率、夏普比率、最大回撤等统计回测指标对因子和组合的“价值”进行了风险回报评估,充分体现了量化因子有效性和投资价值,为投资组合构建提供指导依据。

---

5. 风险因素评估



报告明确列出以下风险点:
  • 模型与历史数据依赖风险:因子基于历史数据统计与建模,若未来市场政策或宏观环境发生重大变化,因子可能失效。

- 市场结构与交易行为变化风险:市场微结构改变、新交易规则或行情行为改变可能导致因子即时适用性的下降。
  • 量化模型多样性风险:不同量化策略和模型结果可能存在差异,表明使用者不可单一依赖本报告结论。


报告未明确提出特定缓释策略,但通过多换仓周期、多市场板块、多因子解耦和组合筛选等方法,试图增强因子的鲁棒性和抗风险能力。[page::0][page::18]

---

6. 批判性视角与细微差别


  • 客观优点:报告充分利用了高频Level 2逐笔订单数据,创新性地引入成交完成时间分布界定长短单,构建多样解耦因子,且进行了多市场全方位实证验证,展示了策略的广泛适应性和较强的实证表现力。报告结构严谨、数据细致丰富。

- 假设局限:长短单界定基于高斯分布假设,现实市场成交时间分布是否完全服从这一假设尚存疑问,报告未提供分布检验和异常订单的处理细节。
  • 市场失效风险:报告明确警示市场结构和政策变动可能导致因子失效,但具体对冲或动态调整机制未涉及,投资者需额外谨慎。

- 指数对比偏差:不同板块组合规模差异(如沪深300只使用Top-50组合),可能导致收益率差异部分是因规模或流动性差异引起,报告中未深入分析该平衡。
  • 因子平滑处理影响:平滑处理后因子表现有增强信息稳定性的趋势,但亦有一定指标下降,应关心平滑后因子信号的实时性和敏感度权衡。

- 内部数据完整性:部分表格中数据排版零乱(可能OCR误差),不影响整体结论,但需关注报告数据披露的规范性和易读性。

---

7. 结论性综合



本报告基于Level 2逐笔订单数据,从成交完成时长维度创新提出“长短单”占比因子,结合订单维度进行解耦分析,共设计22个长短单因子。通过系统化的多维度统计和回测,验证了这类因子在包含全市场、创业板、沪深300、中证500、800、1000 等多个板块均表现出稳定的预测能力与投资价值。

精选长短单因子组合的实证结果显示:
  • 2021年至2023年,Top-150组合年化收益率稳定在20%以上,夏普比率显著高于1,最大回撤控制较好,典型市场基准指数表现为负收益,强调组合优异的超额收益属性。

- 因子RankIC均值持续较高(约10%~13%),胜率超过65%,显示因子信息含量稳定且有效。
  • 订单维度解耦因子揭示了不同长短单属性组合的复杂市场信号,特别是含有短买短卖等负相关因子,进一步丰富了因子库。

- 交易策略设计合理,包含费率、换仓频率等实际考量,回测更具参考价值。

图表和表格数据明确支持上述结论,净值曲线和年度收益统计均体现出长短单因子组合的稳定和突出表现,综合体现Level 2订单数据作为研究源头的重要性及深化订单维度解析的实用价值。

总体来看,本报告创新地基于订单完成时间构建因子,结合多维度解耦及严谨的多市场实证回测,为量化投资者提供了一套强有力且成熟的策略工具,未来随着市场数据和结构演变,该策略仍需持续关注风险和策略调整。

---

图表示例


  • 精选长短单因子组合(全市场)净值曲线:


  • 高斯分布示意图:



---

综上,本报告在理论方法、数据深度、实证严谨性及投资实用性方面表现突出,是Level 2订单数据量化研究不可多得的优质参考资料,建议量化研究者重点关注及评估后续“海量Level 2数据因子挖掘”系列的延展研究。[page::0][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18]

报告