`

单与长短单的241个碰撞火花——海量Level 2数据因子挖掘系列(三)

创建于 更新于

摘要

本文基于海量Level 2逐笔订单数据,从订单“大小”和“长短”两个独立维度构建了240个订单因子。通过实证回测,挑选表现优异因子构建精选订单因子组合,在A股主流板块均取得显著超额收益,Top-30组合年化收益率最高达31.33%,夏普比率高达1.86,显著优于市场基准[page::0][page::7][page::16][page::25]。

速读内容


订单数据与因子构建基础 [page::3][page::6][page::7]

  • Level 2数据包含精准逐笔订单信息,是研究的根源。

- 订单大小和成交完成时长作为两个指标,独立性强(相关系数区间-0.19至0.19)。
  • 结合订单大小和长短定义,构建16类订单因子乘以3个阈值和5个时段,组合成240个因子。

- 采用高斯分布阈值界定大小单和长短单,如均值+1σ对应15.8%的大单率。

240个订单因子的RankIC表现 [page::7][page::8][page::9][page::10]

  • 超过50个因子的20日换仓RankIC均值大于8%,18个因子超过10%。

- 因子平滑处理后,部分因子IC及胜率显著提升,表明因子信号稳定。
  • 不同组合均展现较好的信息系数与稳定性,表明因子有效性强,适合构建组合。


精选订单因子组合回测表现——全市场 [page::16][page::17]



| 组合 | 年化收益率 | 最大回撤率 | 换手率 | 夏普比率 |
|-------|---------|---------|------|-------|
| Top-30 | 31.33% | 15.39% | 70.31% | 1.86 |
| Top-50 | 31.15% | 16.06% | 66.94% | 1.86 |
| 中证全指 | -8.50% | 29.34% | - | -0.66 |
  • 精选组合在全市场表现超越最大基准,回撤可控,夏普高。


创业板精选因子组合表现 [page::18][page::19]



| 组合 | 年化收益率 | 最大回撤率 | 换手率 | 夏普比率 |
|-------|---------|---------|-----|-------|
| Top-30 | 27.66% | 25.45% | 50.74% | 1.30 |
| 创业板综指 | -7.46% | 38.09% | - | -0.45 |
  • 板块内因子同样表现优异,波动率偏高但仍稳定盈利。


不同行业板块精选组合表现概览 [page::19-23]

  • 沪深300、 中证500、 中证800、 中证1000、 国证2000均实现超额收益,因子有效广泛适用。

- 以沪深300为例,Top-30组合年化收益为10.62%,对比指数-13.79%,表现突出。

因子组合策略总结 [page::25]

  • 策略以因子排序买入,20日频率调仓,双边千三手续费计入。

- 因子解耦方法科学,覆盖多个维度,提升了因子有效性与风控。
  • 风险提示:模型及策略在政策、市场环境变化时存在失效风险。


深度阅读

金融研究报告深度分析报告


报告题目与基础信息

  • 报告标题:《单与长短单的241个碰撞火花》——海量Level 2数据因子挖掘系列(三)

- 发布机构:广发证券发展研究中心
  • 主要作者及联系方式:安宁宁(SAC执证号:S0260512020003),林涛,及其他多名资深分析师组成的广发金融工程研究小组

- 发布时间:2024年,结合相关前序研究发布日期
  • 研究主题:聚焦股票市场中Level 2逐笔订单数据,结合订单的“大小”和“长短”两个维度,深入挖掘并构建240个订单因子,筛选其中表现优异的因子组合,验证其在A股全市场及细分板块的实证表现。


核心论点与报告概览


报告认为,量化投资中制胜关键在于对海量Level 2数据的深度挖掘,尤其是逐笔订单的“大小”和“长短”两个维度相对独立,需结合构建多维度订单因子。本文基于该思路,构建了241个(包含240个大小与长短综合解构因子)因子,通过实证回测筛选出优质组合,实证结果显示精选订单因子组合在多个市场板块取得显著超额收益,年化收益率远超同期基准指数,且伴随较优的风险调整收益指标(如夏普比率)。该报告延续了前两期研究成果,深化的路径和方法具有创新性和实用价值。

---

详细章节解读



一、Level 1与Level 2行情数据介绍

  • 主要论点:股市博弈的关键在于市场信息掌握,对量化投资者重要的是海量数据的采集及深度分析。

- 数据来源及分类:Level 1数据为常见3秒一笔的行情快照(Snapshot),包含基础价格、销量、买卖档位等常规数据;Level 2数据在频率和信息维度均更丰富,不仅涵盖更多的申买申卖价及量档,还提供了关键的逐笔订单(Tick)数据,包括每笔订单的时间戳(毫秒级)、订单号、类别(委托、成交、撤单)等详尽信息。逐笔订单数据是所有行情数据的根源。
  • 意义:Level 2数据为挖掘深层市场规律提供了根本基础。该报告系列正是基于Level 2数据构建因子,挖掘交易信号。

- 表1说明:Level 1与Level 2行情数据的主要字段对比,凸显Level 2在订单细节和撤单信息上的丰富性及高频度优势。[page::3] [page::4]

二、相关研究工作回顾及因子相关性分析

  • 前序研究总结:

- 系列(一)聚焦大小单因子,构建了94个基于订单大小分析的有效因子组合。
- 系列(二)聚焦长短单因子,基于成交完成时长构建了22个长短单因子并形成精选组合。
  • 本研究开端:通过Spearman相关系数定量测算大小单因子与长短单因子间的相关性。

- 关键发现:相关系数绝大多数在-0.19至0.19之间,表明订单大小与订单长短两个维度在统计学上相对独立,提供了多维度的市场信息。
  • 表2详细解析:

- 交叉相关系数矩阵,反映了不同买卖方向及大小、长短组合因子间的低相关特性。
- 相关性低意味着两类因子的结合可提升组合多样性和捕获不同市场信号的可能性。[page::4] [page::5]

三、订单因子的构建:大小与长短的联合解构

  • 订单属性解构:订单的“大小”通过成交量对均值加权标准差阈值划定,大于均值+N倍标准差为大单,小于为小单,N取值包括1.0、1.5、2.0。成交完成时长(长短单)用相同方式划分,量化其持续时间。

- 结合四类买卖状态(买入/卖出)与大小长短,构建16种基础订单因子,四类核心元素分别是:大买(BigBuy)、长买(LongBuy)、大卖(BigSell)、长卖(LongSell),缩写如“BBLBBSLS”等。
  • 进一步结合三种标准差阈值和五段交易时段(全天连续交易,开盘后15/30分钟,收盘前30/15分钟),因子数量扩大到240个。

- 图1(高斯分布示意)说明大小长短阈值的统计分割依据,例如均值+1.0倍标准差以上的单占15.8%左右,1.5倍及2.0倍阈值对应较稀有大单。
  • 统计RankIC表现:在2021-2023年期间,以20日换仓为主,多因子中超过50个RankIC超8%,意味着存在大批稳定有效的订单因子。

- 表3、4-19均详细展示了各系列因子在5日、20日换仓及平滑处理下的RankIC均值和胜率,体现了因子有效性随窗格与阈值调整的演变差异。
  • 重要解析:“大小”和“长短”结合的多维度因子展现了良好的收益预测能力,且不同时间段的解耦分析揭示了开盘及收盘时段订单信息的重要性,提升了因子模型的捕捉能力。[page::6] [page::7] [page::8~15]


四、精选订单因子组合的构建与实证表现

  • 组合构建规则:

- 因子值排序,取前K(K=30,50,100,150,200)个股票构建Top-K多空组合
- 以t日因子值排序后t+1日均价买入,20个交易日换仓,考虑双边千分之三交易费用
- 剔除停牌、ST、涨跌停、上市未满一年等样本以确保数据质量
  • 全市场表现(图2与表20):

- 2021~2023年,Top-30组合年化收益31.33%,最大回撤15.39%,夏普比率1.86,明显优于同期中证全指-8.50%的负收益。[page::16] [page::17]
  • 创业板表现(图3、表21):

- RankIC均值13.7%,胜率83.4%。Top-30组年化收益27.66%,最大回撤25.45%,夏普比率1.30。同期创业板综指为-7.46%。
- 2023年收益表现尤为强劲,显示该因子组合在波动中仍具灵活捕捉能力。[page::18]
  • 沪深300表现(图4、表22):

- RankIC均值10.5%,胜率64.6%,Top-30组合年化收益10.62%,超越指数的-13.79%。风险水平和换手水平适中,体现良好的风险调整表现。[page::19]
  • 中证500表现(图5、表23):

- RankIC均值11.1%,胜率63.9%,Top-30组合8.79%收益,明显优于中证500的-5.98%。
  • 中证800表现(图6、表24):

- RankIC均值11.3%,胜率65.6%,Top-30组合6.86%收益,远超中证800的-12.01%。
  • 中证1000表现(图7、表25):

- RankIC均值10.7%,胜率67.4%,Top-30组合15.39%收益,高于指数-4.70%。
  • 国证2000表现(图8、表26):

- RankIC均值12.7%,胜率76.5%,Top-30组合年化收益25.0%,显著优于国证2000指数的1.22%。
  • 综合观察:精选订单因子组合在多个细分市场均表现出稳定的正向收益及较好风险控制能力,特别是在中小盘及创业板市场表现尤为突出,给出较高的信息比率和夏普比率,证明因子强大的市场信号捕捉能力。[page::20~24]


五、总结与展望

  • 总结:

- Level 2逐笔订单数据丰富、精细,是构建有效交易因子的理想数据源。
- “大小单”与“长短单”是两个统计独立维度,联合使用可显著提升因子捕捉信号的能力。
- 本文成功构建了240个多维组合订单因子,并筛选出超过50个表现卓越的因子,组合表现显著优于市场基准。
  • 展望:后续研究将继续基于Level 2海量数据,挖掘更多潜在的市场规律,拓展有效因子体系,增强量化投资的稳定性和超额收益能力。[page::24] [page::25]


六、风险因素评估

  • 市场政策及环境变化风险:历史统计模型在政策环境大幅改变时可能失效,投资者需关注外部制度及环境对因子有效性的影响。

- 市场结构及交易行为变化风险:量化策略依赖特定市场结构,结构性变化(如交易机制、参与者行为等)可能导致策略失效。
  • 模型差异风险:不同量化模型可能得出不同结论,本文策略不保证绝对有效,需结合多模型判断。

- 未具体提出缓解策略,提示投资需警惕模型局限与市场突变。[page::0] [page::25]

七、图表深度解读



图1:高斯分布示意图

  • 视觉展示了正态分布的概率属性及标准差范围,为因子大小与长短分类提供理论支持。

- 较大订单定义为均值以上不同倍数的标准差,符合统计学分布规律。
  • 数据落点合理,强化数据划分的科学性。[page::7]


图2-8(精选订单因子组合净值表现)

  • 各图均展示不同组合(Top-30至Top-200)净值演变与对应基准指数对比。

- 结果显示Top-30表现最佳,净值增长显著优于对应基准,波动较低,兼顾收益与稳定性。
  • 多板块回测验证因子组合的普适有效性,且在不同市场环境下均能够跑赢基准,说明因子稳定性较强。

- 各图的不同组合线条趋于分层,说明因子优选范围确定了收益空间和风险特征。
  • 比较基准指数波动显著,如中证全指和创业板综指均为负增长,凸显因子组合抗跌性强。

- 强调数据驱动的因子组合具备显著的择时和选股能力。
例如图2展示的是全市场表现,Top-30组合净值累计达到2.4倍以上,而同期中证全指逐渐缩水到原值的0.75左右,体现该因子组合在过去3年里的绝佳表现。[page::0] [page::16] [page::18] [page::19] [page::20] [page::21] [page::22] [page::23]

表格部分(因子RankIC表现)

  • 详细列出240个多维订单因子的IC均值和胜率,在5日和20日换仓期,加权了因子值平滑后的表现。

- 部分因子(如BB
LBBSSS1p009301457)RankIC平均大于10%,胜率超过70%,统计学上高度显著,说明因子具备良好预测力。
  • 平滑处理提升稳定性,尤其20日换仓(较长窗口)中表现更明显。

- 不同组合及时间段表现波动,提示需动态调整因子权重和选用时机。
  • 统计庞大但系统,充分证明因子筛选过程严谨、科学。[page::8]~[page::15]


表格部分(精选订单因子组合绩效统计)

  • 详细的年化收益、最大回撤、换手率、波动率、夏普比率和信息比率逐年及整体展示。

- 绩效指标显示优秀组合综合收益稳定,风险性处于可控范围内。
  • 2021年普遍为高收益年份,部分分板块2022年出现明显回撤和负收益,2023年多数板块开始修复。

- 换手率普遍较高(30%-70%),符合中短期因子调仓策略特征。
  • 夏普比率均高于市场平均,尤其全市场Top-30为1.86,显著优于绝大多数主动管理基金。

- 信息比率展现组合对比基准的超额收益能力,部分组合超过2,表现非常突出。[page::17]~[page::24]

---

批判性视角与细微差别


  • 研究基于历史数据测算,未明确考虑突发极端行情对模型的冲击,风险提示虽在,但缺少具体应对策略。

- 模型过度依赖历史统计特征,可能存在“过拟合”风险,尤其240个因子较多,实际投资组合管理中执行难度较大。
  • 尽管多维度因子低相关,但组合构建中如何优化因子权重未详述,实际投资效果依赖权重调优策略。

- 规模效应未明,部分大单长单判定比例较低(如2.3%),实际样本数较少,可能导致统计不稳健。
  • 没有展开对机器学习等非线性模型对比分析,方法相对偏向传统统计因子挖掘。

- 风险提示较为通用,缺少对市场结构性风险及流动性风险的细化刻画。

---

结论性综合



本报告为“海量Level 2数据因子挖掘”系列的第三篇,深度剖析了结合订单“大小”与“长短”属性的多维度订单因子,构建240个因子并精选出表现卓越因子组合。基于近三年实证回测,精选组合在A股全市场及多个细分板块均取得显著超额收益,年化收益率最高达31.33%,并伴随较优夏普比率和信息比率,表现出良好的风险调整能力。该研究确认了“大小单”与“长短单”维度的独立性及组合的互补性,因子在不同时段、市场环境均具备普适有效性,展现了基于Level 2逐笔订单数据挖掘的巨大潜力。虽然存在一定的模型稳健性及执行难度风险,但该报告为量化投资提供了一个系统且科学的因子构建框架及实证验证路径,具备较高的参考与应用价值。后续研究将继续围绕Level 2数据进行深度挖掘,丰富因子体系,推动量化投资策略创新。

---

图表展示示例



图1:高斯分布
图2:精选订单因子组合净值表现(全市场)
图3:精选订单因子组合净值表现(创业板)
图4:精选长短单因子组合净值表现(沪深300)
图5:精选订单因子组合净值表现(中证500)
图6:精选订单因子组合净值表现(中证800)
图7:精选订单因子组合净值表现(中证1000)
图8:精选订单因子组合净值表现(国证2000)

---

参考文献

  • 广发证券发展研究中心,《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》,2024-07-15

- 广发证券发展研究中心,《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》,2024-08-01
  • 本报告及其表格、图示,2024年广发证券发展研究中心发布


[page::0] [page::1] [page::3~16] [page::17~25] [page::26~27]

报告