`

【广发金工】2024精选深度报告系列之十三:大小单与长短单的241个碰撞火花

创建于 更新于

摘要

本报告基于海量Level 2逐笔订单数据,结合订单大小与成交时长两个独立维度,构建240个订单因子,通过多维度解耦分析挖掘出优异表现的精选订单因子组合。2021-2023年回测显示,精选订单因子组合在全市场及多个板块均实现显著超额收益,Top-30组合年化收益率高达31.33%,夏普比率达1.86,显著优于基准指数表现。该系列研究为量化选股提供了有效的交易信号和策略基础。[page::0][page::5][page::14][page::22]

速读内容

  • Level 2行情数据简介及重要性 [page::1][page::2]


- Level 2数据提供更丰富的订单级别信息和逐笔订单Tick数据,是构建高频因子和深度交易信号的基础。
- 逐笔订单数据比Level 1更细致,包含精确到毫秒的交易信息。
  • 大小单与长短单因子的独立性及构建 [page::0][page::2][page::3]

- 通过Spearman相关系数测算,大小单因子与长短单因子相关系数区间为 -0.19至0.19,说明两个维度相对独立。
- 依据成交量和成交完成时长,分别以均值加若干倍标准差为阈值划分大小单和长短单,分别筛选出94个大小单因子和22个长短单因子。
- 综合大小单及长短单,构建16种不同类型的订单因子,进一步结合3个标准差阈值和5个交易时间段,生成240个解耦订单因子。
  • 订单因子构建细节及统计分析 [page::4][page::5]


- 采用正态分布假设及不同标准差阈值,定义大单/小单和长单/短单。
- 结合开盘后15分钟、30分钟及收盘前时段,构建时段加权的订单因子。
- 统计分析发现,20日换仓窗口内超过50个因子RankIC均值超过8%,部分因子RankIC超过10%,具备显著的预测能力。
  • 订单因子表现统计详表(多表覆盖240因子) [page::6~page::12]

- 分不同因子系列展示5日及20日换仓条件下的IC均值与胜率,因子平滑处理提升了表现稳定性。
- 不同因子组合在不同时间段及阈值条件下性能差异明显,部分因子表现优异且稳定。
  • 精选订单因子组合构建与回测设定 [page::13][page::14]

- 选股范围覆盖全市场及多个主流板块,剔除ST、退市及上市不足一年股票。
- 因子排序选取Top-K股票构建等权重组合,每20个交易日调仓一次,买卖均以次日均价成交,双边千分之三交易成本。
- 回测时间区间为2021年至2023年。
  • 精选订单因子组合在各板块的回测表现 [page::14~page::21]

- 全市场Top-30组合年化收益31.33%,最大回撤15.39%,夏普1.86,显著跑赢同期中证全指(-8.50%收益)。

- 创业板Top-30组合年化收益27.66%,夏普比率1.30,高胜率83.4%。

- 沪深300中,Top-30组合收益10.62%,最大回撤12.24%,夏普比率0.70,优于沪深300指数表现。

- 中证500Top-30收益8.79%,夏普0.45,超过中证500平均表现,图示净值曲线稳健。

- 中证800Top-30组合年化收益6.86%,夏普0.34,显著优于同期指数表现。

- 中证1000Top-30收益15.39%,夏普0.84,年化回报超过中证1000负收益水平。

- 国证2000Top-30组合年化收益25.00%,最大回撤17.50%,夏普1.44,远超国证2000指数1.22%微弱收益。

  • 量化因子构建与策略要点总结 [page::0][page::5][page::13][page::22]

- 报告构建了240个基于订单大小和成交时长双维度的因子,结合五个时间段统计并应用三种标准差阈值精细划分大单/小单及长单/短单。
- 精选订单因子组合采用因子值排序的Top-K选股策略,周期20个交易日调仓,双边3‰交易成本计入评估。
- 多市场板块及全市场回测验证了组合的稳健超额收益能力,胜率均高于75%,年化收益显著优于各基准指数。
  • 风险提示 [page::1][page::22][page::23]

- 量化模型结果存在因市场政策或结构变化而失效的风险。
- 策略可能在交易行为改变时表现减弱。
- 本报告观点仅供参考,模型结果可能与其它市场模型存在差异。

深度阅读

元数据与概览(引言与报告概览)


  • 报告标题:《大小单与长短单的241个碰撞火花:海量Level 2数据因子挖掘系列(三)》

- 作者与发布机构:广发金融工程研究中心,广发证券
  • 发布时间:2024年9月23日

- 报告主题:基于A股市场Level 2逐笔订单数据,从订单“大小”和“长短”两个维度出发,构建并验证股票因子,以期挖掘有效市场规律,实现超额收益。

报告核心论点强调,量化投资的关键在于对海量订单数据的深度剖析,本文首次结合“大小单”和“长短单”的两大维度,构建出240个订单因子,通过历史数据验证,选出表现优异的因子组合,实现全市场及各大板块的显著超额收益,具备较强投资参考价值。[page::0-1]

---

逐节深度解读



1. Level 1与Level 2行情数据介绍



本节详细介绍了A股市场的市场数据分级。Level 1数据为3秒一笔的快照数据,包含开高低收、成交量价等基本信息,数据频率及丰富度有限。Level 2数据则包含更详尽的十档买卖价量、前50委托及撤单信息,尤其重要的是附带“逐笔订单”的Tick数据,时间戳精确到毫秒,涵盖每笔订单的详尽信息(价格、量、买卖方向、订单号等)。文章强调,Level 2逐笔订单数据是行情数据的根源,深入挖掘后可提取更多交易信号,有助于构建优质因子。[page::1-2]

---

2. 相关研究回顾与大小单与长短单因子相关性分析



回顾了两篇前序研究:
  • 多维度解耦的94个大小单因子:基于订单大小挖掘因子,验证有效性。

- 多维度解耦的22个长短单因子:基于订单成交完成时长开发因子,表现同样优秀。

针对这两类因子,文章通过Spearman相关系数分析发现,大小单因子与长短单因子之间的相关性极低,数值介于-0.19至0.19,表明这两者为订单特征的两个基本且相对独立的维度,结合这两维度构建的因子有望捕捉更全面的市场信号。[page::2-3]

---

3. 大小单与长短单双维度订单因子构建



基于订单大小和成交完成时长,将订单划分为“大小单”与“长短单”,定义大单(长单)为成交量(成交完成时长)超过均值加N倍标准差的订单(N取1.0、1.5及2.0),对应约15.8%、6.7%和2.3%的比例,采用高斯分布对成交量和时长进行建模(图1)。同时结合订单买入卖出双方,构建16种基础订单因子(见表3),再乘以3个大小/长短阈值和5个统计时间段(全天、开盘后15分钟、30分钟等时段),共计构建240个订单因子。

此方法系统且细致,从多维度和多时间尺度细分订单行为,旨在捕获多重市场微结构信息,增强因子的时效性和稳定性。[page::4-6]

---

4. 订单因子表现分析



对240个因子在A股全市场2021至2023年期间进行RankIC分析,基于不同换仓周期(5日、20日)及因子平滑处理,结果表明超过50个因子的RankIC均值超过8%,18个高于10%,说明研究构建的因子体系强相关未来收益,具备显著预测能力。

各具体子系列(如BBLBBS_LS等)均表现不同,选择不同时间段和标准差阈值可影响因子表现,细化了因子效果的时序性及换仓策略对表现的影响。[page::6-12]

---

5. 精选订单因子组合构建及实证表现



基于上述240因子,挑选表现优异者构建综合因子组合。采用的方法为:
  • 按因子值排序,构建Top-K (K=30,50,100,150,200)股票组合

- 每20个交易日调仓一次,以下一交易日均价买入,买卖双边费用均为0.3‰
  • 剔除特殊股票(摘牌、ST、涨跌停及新股)

- 回测区间覆盖2021年1月至2023年12月,测试多路径均值结果

组合在A股各个板块均表现卓越,同比显著跑赢对应基准指数。

---

具体板块表现详解



全市场板块
  • RankIC均值13.3%,胜率78.3%

- Top-30组合2021-2023年年化收益31.33%,最大回撤15.39%,夏普比率 1.86
  • 同期中证全指年化收益-8.5%,回撤29.34%

见图2与表20,对应净值走势稳定向上,风险收益比优越。[page::14-15]

创业板板块
  • RankIC均值13.7%,胜率83.4%

- Top-30组合年化收益27.66%,最大回撤25.45%,夏普比率1.30
  • 同期创业板综指年化收益-7.46%

回测数据和图3显示组合在创业板中同样表现抢眼,尤其2023年表现强劲。[page::15-16]

沪深300板块
  • RankIC均值10.5%,胜率64.6%

- Top-30组合年化10.62%,最大回撤12.24%,夏普0.7
  • 同期沪深300指数年化-13.79%

数据显示该因子组合在大盘蓝筹中表现稳健,超额收益明显。[page::16-17]

中证500板块
  • RankIC均值11.1%,胜率63.9%

- Top-30年化收益8.79%
  • 同期指数收益-5.98%

绩效表现出色,稳健超额回报。[page::17-18]

中证800板块
  • RankIC均值11.3%,胜率65.6%

- Top-30年化收益6.86%
  • 指数表现-12.01%

优秀的收益与低回撤表明组合对中型蓝筹有突出捕捉能力。[page::18-19]

中证1000板块
  • RankIC均值10.7%,胜率67.4%

- Top-30年化15.39%
  • 指数表现-4.7%

组合在中小市值股中的表现稳定发展,收益较好。[page::19-20]

国证2000板块
  • RankIC均值12.7%,胜率76.5%

- Top-30年化收益25.00%
  • 指数1.22%

甄选因子组合表现大幅超额,说明在小市值股票中也有突出选股能力。[page::20-21]

---

图表深度解读


  • 表1比较Level 1与Level 2数据差异,突出了Level 2的数据丰富性和逐笔订单的精细刻画能力。为后续因子开发提供了数据基础。

- 表2展示大小单因子与长短单因子的低相关性,证明两维度相互独立,有利于因子组合多样化和风险分散。
  • 表3订单类型划分矩阵,体现了大小与长短两个维度共16种类别,为240因子的细分奠基。

- 图1正态分布曲线配合不同标准差阈值,说明大小单(长单)在样本中比例合理,科学界定订单大小标准。
  • 表4~19系列详细展示了240个因子的RankIC均值及胜率,尤其20日换仓和因子平滑后的表现较好,清晰显示优质因子得以筛选。

- 表20~26涵盖不同板块精选因子组合的年化收益、最大回撤、夏普比率等,体现因子组合的风险收益特征。
  • 图2~8净值曲线清晰呈现组合收益持续超过同期指数,直观反映超额收益能力及风险控制表现。


整体图表体系完整,既有数据统计分析,也有策略表现的直观展现,有效支撑全文论点。[page::2-23]

---

估值分析



报告不涉及传统的公司估值或股价预测,而聚焦于基于订单数据的量化因子挖掘和投资组合构建,强调因子有效性验证(RankIC和绩效表现)和投资组合实证回测表现,没有运用DCF或市场倍数法等估值模型,侧重因子统计学特征和历史超额收益。[page::全篇]

---

风险因素评估



报告在风险提示中特别指出:
  • 因子和模型基于历史数据和过去市场结构,未来在市场政策、环境、结构或交易行为变化时,模型可能失效。

- 不同量化模型可能得出不同结论,本文观点不是绝对一致,投资者应审慎参考。
  • 量化策略存在风险,不能保证未来所有时间段均超额表现。


风险评估中明确存在模型适用条件和环境风险,提示投资者不得盲目依赖历史回测结果,需动态关注市场变化及模型适应性。[page::1,23]

---

批判性视角与细微差别


  • 优势:利用极其详尽的Level 2逐笔订单数据维度挖掘,结合大小单和长短单双重维度,构建了丰富的因子体系,数据基础扎实,统计显著,实证回测时间段涵盖多阶段表现,结果稳健。

- 需关注点
- 因子阈值的选择(不同标准差倍数和时间段)较多,导致因子数量庞大,可能存在过度拟合风险。
- 部分因子在5日换仓和未平滑条件下表现不佳,需格外注意换仓周期对因子表现的敏感度。
- 回测中费用设置固定,实际交易中大订单成本和市场冲击可能更复杂。
- 报告的量化策略主要依赖统计相关性,因果机制论述较少,可能对非典型市场环境适用性不足。
  • 内部一致性良好,数据和模型构建逻辑连贯,因子分类体系严密且合理。总体严谨但建议结合实际交易环境深化验证。


---

结论性综合



本报告通过对海量Level 2逐笔订单数据从大小与长短两个维度的创新解构,细分出了241个组合因子,成功从订单行为中挖掘出强相关未来收益信号。作者基于严谨的统计意义检验,筛选出多组表现稳定且显著的订单因子,进而构建精选订单因子组合。通过覆盖A股全市场及创业板、沪深300、中证500/800/1000、国证2000等多维度板块的多路径回测验证,因子组合表现出了显著的超额收益能力与良好的风险调整收益,夏普比率普遍超过1,最大回撤控制在合理区间。

报告各类表格与图表充分展示了因子的统计表现(RankIC均值及胜率)、因子组合的收益率、回撤及波动特征,均支持了其结论。精选订单因子组合以科学的换仓周期和严格的费用假设为基础,体现了在不同市场环境中的稳健性和适应性。

整体来看,本报告为基于高频交易订单数据的量化选股研究树立了一个理论系统且有实证支撑的框架,特别强调大小、长短两个独立维度订单行为的重要性,丰富了量化投资因子体系,对量化策略开发与市场微观结构理解具有推进意义。[page::全篇]

---

参考图片


  • 图1(高斯分布图)


  • 图2(精选订单因子组合净值表现——全市场)


  • 图3(精选订单因子组合净值表现——创业板)


  • 图4(精选订单因子组合净值表现——沪深300)


  • 图5(精选订单因子组合净值表现——中证500)


  • 图6(精选订单因子组合净值表现——中证800)


  • 图7(精选订单因子组合净值表现——中证1000)


  • 图8(精选订单因子组合净值表现——国证2000)



---

总结



该报告深入解剖了A股市场Level 2逐笔订单数据,通过大小单和长短单两个低相关度维度创新地构建了覆盖240个维度的订单因子,挑选表现优异者组成因子组合,充分验证了因子组合在全市场及多个细分板块的良好表现,尤其在市场波动较大的近三年中取得稳定超越市场的超额收益。其方法论严谨、数据详实、回测稳健,对量化投资者理解并利用市场微结构特征提供了重要参考。此外,报告对风险进行了及时披露,提醒投资者关注环境和结构性变化对模型的潜在影响。

总之,该报告是基于海量高频交易数据的量化研究典范,提升了订单数据因子开发的深度与广度,体现了数据驱动投资的前沿研究水准。[page::0-23]

报告