海量 Level 2 数据因子挖掘系列(一):多维度解耦的 94 个大小单因子
创建于 更新于
摘要
本报告基于Level 2逐笔订单数据,从订单大小角度构建了93个大小单因子,并通过时间和订单维度多维解耦提炼出有效因子。精选因子组合在2020-2023年全市场及各大板块均实现优异表现,多头年化收益最高达36.61%,夏普比率超过2,显著超越基准指数。报告详细展示了因子构建方法、分时段和订单属性解耦技术,以及多维因子组合的回测结果,为量化选股提供了新的数据和方法视角。[page::0][page::5][page::6][page::8][page::9][page::12][page::14][page::20][page::21][page::30]
速读内容
Level 2 行情数据优势及因子构建逻辑 [page::4][page::5]
- Level 2数据包含10档买卖委托、逐笔订单、委托撤单等丰富信息,比传统Level 1数据提供更精准的市场微观结构。
- 大小单根据成交量相对于均值和标准差划分,构建如BigBuy1p0等多个因子,覆盖买卖两侧及其组合。
大小单因子的回测表现 [page::6][page::7][page::8]
| 因子名 | RankIC均值 | 胜率 | 多头年化收益率 | 最大回撤率 | 夏普比率 |
|--------------|------------|-------|----------------|------------|----------|
| BigBuy1p0 | 7.9% | 70% | 28.08% | 9.18% | 1.80 |
| BigBuy1p5 | 7.6% | 71% | 26.73% | 8.73% | 1.73 |
| BigSell1p0 | 7.0% | 66% | 24.36% | 9.54% | 1.53 |
| BigBuySell1p0 | 8.4% | 68% | 27.96% | 9.28% | 1.76 |
- 20日换仓条件下大买单因子表现最佳,未平滑因子效果优于平滑版本,5日换仓适合追求更高收益,20日换仓更稳健。
时间维度解耦大小单因子表现 [page::8][page::9][page::10]
- 按市场开盘和收盘的15分钟、30分钟时段分别解耦,构建24个时间维度因子。
- 代表因子BigBuy1p009301000(开盘后半小时大买单占比):20日换仓下年化收益26.63%,最大回撤8.37%,夏普1.73。
- 时间解耦降低了RankIC,但多头收益保持稳定,表明因子对多头策略意义更大。
订单维度解耦大小单因子表现 [page::12][page::13]
- 因子分别对应大买单大卖单、大买单小卖单、小买单大卖单、小买单小卖单4种订单属性,构成12个订单维度因子。
- 大买单大卖单因子BigBuyBigSell1p0表现优异,5日换仓年化收益31.01%,多空年化收益达47.09%,夏普3.19。
- 订单维度解耦明显提升多空组合表现,适合构建多空套利策略。
多维度(时间+订单)解耦因子表现 [page::14][page::15][page::16]
- 构建48个多维度因子,结合时间段和订单属性。
- 代表因子BigBuyBigSell1p009301000表现突出,20日换仓下年化收益26.56%,最大回撤9.82%,夏普1.68。
- 多维解耦有效挖掘不同维度信息,优化收益风险特征。
精选大小单因子组合实证分析 [page::20][page::21][page::22]
- 精选因子组合在全市场200档分组年化收益36.61%,最大回撤17.52%,夏普2.03,超越中证全指33.07%。

- 沪深300、中证500、中证800、中证1000、创业板五大板块精选组合多头年化收益分别达12.24%、22.55%、18.54%、24.61%、36.20%,均显著跑赢板块指数。


- 因子组合稳定的超额收益证明大小单因子及解耦方法的有效性。
风险提示 [page::0][page::31]
- 量化模型基于历史数据及统计学假设,面临市场环境变化及政策调整风险。
- 策略表现具时效性,交易行为和市场结构的改变可能导致信号失效。
- 观点可能与其他量化模型存在差异,投资需谨慎。
深度阅读
资深金融分析报告详尽解读 — 《海量 Level 2 数据因子挖掘系列(一):度解耦的94个大小单因子》
---
一、元数据与概览
- 报告标题:《海量 Level 2 数据因子挖掘系列(一):度解耦的94个大小单因子》
- 作者与发布机构:广发证券发展研究中心,报告主要研究员包括安宁宁(执证号:S0260512020003)、罗军等
- 发布日期:2024年7月或之前(未明确说明具体发布日期)
- 主题:股票市场量化投资因子研究,重点为基于沪深A股市场Level 2逐笔订单数据,从成交订单大小角度构建并解耦大小单因子,挖掘股票交易的有效市场信号。
- 核心论点:
- Level 2数据提供比传统Level 1数据更丰富的逐笔订单信息,为高效量化模型构建提供基础。
- 以多维度解耦方法,从时间和订单维度对大小单占比因子进行划分,构建出共计93个有效因子。
- 精选因子组合在2020-2023年间A股市场及多个主流板块均取得显著超额收益和稳健的风险控制表现。
- 主要结论与表现:以20日换仓频率,大小单因子组合在全市场获得36.61%的多头年化收益率,夏普比率2.03,超越同期中证全指33.07%的超额收益;在沪深300、中证500等板块也均表现优异,提供了多层级可复制的量化投资策略框架 [page::0,1]
---
二、逐节深度解读
1. Level 1 与 Level 2 行情数据介绍
- 关键信息总结:
- Level 1行情数据为3秒一笔的快照,包含传统常规数据(开盘价、最高价、成交量、成交额等),数据频率和深度有限。
- Level 2行情数据除了包含更丰富的10档买卖委托信息,还包括逐笔订单数据,详尽记录交易时段中每笔交易的时间戳(精确到毫秒)、成交价格、数量、买卖方向订单号等,数据丰富且精细。
- 逐笔订单数据为所有快照数据的根源,能够支持更为深入的量化挖掘。
- 本系列聚焦Level 2逐笔订单数据,提供基于大小单订单策略的全新多维度因子体系,力图提取深层市场信号。
- 分析逻辑:通过区分数据粒度和信息度,指出了从Level 1到Level 2数据的重要性递进,圆满解释为何量化挖掘需基于Level 2逐笔订单展开 [page::4,5]
2. 数据聚合与大小单因子构建
- 数据聚合:采取订单号聚合法,将被拆分的逐笔成交成交信息聚合成原始委托订单,确保大小单划分基于原始订单大小而非拆分后片段,避免了数据失真。
- 大小单定义逻辑创新:
- 传统大小单分类基于固定金额区间(4万、20万、100万),但其缺陷在于未考虑股票价格和市场规模,导致判断失准。
- 本文采用统计学方法,以买卖订单成交量数据的均值与标准差衡量大小单,使用不同标准差阈值(均值+1.0σ、+1.5σ、+2.0σ)进行动态界定,大单仅占少数(约15.8%-2.3%),使大小单区别与个股市值、价格关联度更低,更科学合理。
- 构建大买单、大卖单及两者相加的因子系列,例如BigBuy1p0代表大买单占比以均值+1σ阈值界定,因子之间呈线性关系,无需小单因子单独构建。
- 基础统计呈现:图1展示高斯分布对应占比关系,辅助理解统计阈值合理性。
- 数据衡量指标与表现(详见表2-表5):
- 以20日换仓为例,BigBuy1p0因子表现优异,RankIC均值达7.9%,胜率70%,多头年化收益率在28%以上,最大回撤约9%,夏普比率近1.8,显示该因子具备稳定的选股能力。
- 原始因子(非平滑)表现优于平滑因子,5日换仓获得更高收益,20日换仓则RankIC更高,体现了换仓策略与因子噪声过滤的权衡。
- 总结:基于数据自适应统计阈值构建大小单因子,避免市值偏误,获得稳定且强信号 [page::5,6,7,8]
3. 多维度解耦大小单因子
(一)时间维度解耦
- 理论基础:
- 隔夜知情投资者在开盘后15-30分钟内迅速参与交易,市场交易活跃且预期信息密集,大小单占比在开盘及收盘关键时间段尤为重要。
- 因此,将大小单因子按开盘前15分钟、开盘后15分钟、收盘前15分钟等不同时间片段拆分,获得24个时间解耦因子。
- 实证性能(表6-9):
- 以开盘后30分钟大买单占比因子BigBuy1p009301000为例,5日换仓RankIC约3.4%-4.0%,多头年化收益率29%左右,最大回撤约13%,表现良好。
- 20日换仓时RankIC明显提升至4.5%-6.0%,最大回撤减少至8%左右,显示时间维度解耦可在一定程度上平衡收益与风险。
- 对比非时间解耦因子,时间解耦后RankIC略减,但多头收益稳定,投资组合更平稳。
- 分析逻辑:
- 大买单因素深度绑定多头,解耦后整体信噪比权衡下RankIC略有牺牲。
- 但多头收益保持较紧密关联,解耦提高了策略稳健性,适合风险偏好更高的投资者。
- 总结:时间维度解耦提供了更精细的交易行为捕捉窗口,有助于识别关键时段市场力量,虽部分牺牲相关性但提升了收益稳定性 [page::8,9,10,11,12]
(二)订单维度解耦
- 逻辑:
- 同一成交订单可同时具有买卖双方大小属性,拆分为大买单大卖单、大买单小卖单、小买单大卖单和小买单小卖单四类。
- 依据三档标准差阈值,构建12个订单维度解耦因子。
- 表现分析(表10-13):
- 大买单大卖单双大订单因子BigBuyBigSell1p0表现最优,5日换仓RankIC高达6.7%-6.9%,胜率超70%,多头年化31%,多空年化收益47%以上,夏普比率1.67及3.19,均优于单一维度因子。
- 20日换仓表现更佳,RankIC高达9.8%-10.1%,胜率超80%,多空收益提升明显。
- 深入理解:
- 大买单与多头绑定,大卖单与空头绑定,二者同时考虑使得多空组合表现大幅超越单纯多头组合。
- 大买单大卖单双大因子尤其适合构建多空对冲组合,风险调整收益显著。
- 总结:订单维度解耦提高了多空收益提升幅度,体现了交易双方力量的市场信号,适合增强策略对冲能力 [page::12,13,14]
(三)时间+订单维度多维度解耦
- 构建:结合前两维度,生成48个多维度解耦因子,进一步细化时序和订单宽度。
- 重要因子表现(表14-17):
- 开盘后30分钟大买单大卖单因子BigBuyBigSell1p009301000表现最为突出,5日换仓多头收益29%-30%,20日换仓收益27%-28%,最大回撤控制在9.5%左右,夏普比率约1.7。
- 收盘前30分钟因子表现也较好,但略逊一筹。
- 多维度解耦在保持多头绝对收益的基础上,降低了最大回撤,提高了收益稳定性。
- 意义:
- 时序和订单属性的综合拆解,结合了时间敏感性的市场行为和订单结构信号,增强因子信号。
- 平滑处理略微提升好因子表现,降低波动。
- 总结:多维度解耦提升了因子的精细度和信息含量,有助于构建稳定且风险可控的量化股票组合 [page::14,15,16,17,18,19]
4. 精选大小单因子组合表现分析
- 构建理念:从93个大小单因子中精选表现优越的若干因子,综合构建多维度的因子组合。
- 全市场表现:
- 图2显示200档排序组合分档收益明显,表现出的多头方向收益幅度显著优于空头。
- 图3累计收益线持续上升,远超中证全指。
- 图4的RankIC有效正相关,累计值不断攀升,显示因子组合具备稳定选股能力。
- 统计表18明确给出全年化36.61%多头收益,最大回撤17.52%,夏普2.03,超额收益33.07%,信息比率2.18,说明该因子组合具备高信息效率和较好风险调整表现。
- 各主流板块表现:
1. 沪深300板块:
- 50档分档(图5)显示多头明显,夏普比率0.75,年化多头收益12.24%,超额13.40%(表19)。
- 累计收益(图6)及RankIC(图7)表明持续有效的因子信号。
2. 中证500板块:
- 差异化明显,年化收益22.55%,最大回撤9.08%,夏普1.12,超额收益18.67%(表20)。
- 图8-10辅助直观表现。
3. 中证800板块:
- 多头年化18.54%,最大回撤7.22%,夏普1.14,超额18.95%(表21)。
- 图11-13展示因子在中等市值板块的稳定性。
4. 中证1000板块:
- 更小市值板块表现依然亮眼,特别是年化24.61%,夏普1.36,超额17.39%(表22)。
- 相应图14-16展示成长性市场信号。
5. 创业板板块:
- 表现最为优异,年化收益36.20%,夏普1.59,超额25.07%(表23)。
- 图17-19显示该因子在新兴成长板块的强大选股能力。
- 总结:
- 精选大小单因子组合在各主要股票市场板块均能稳定提供超额风险调整收益。
- 组合的多头效果尤为显著,伴随风险可控,适合多层次量化投资者采用。
- 换仓周期20日是平衡收益波动的合理选择 [page::20~29]
5. 总结与展望
- 本文开宗明义强调数据是量化投资的基础,Level 2逐笔订单数据具备最核心且详实的市场信息。
- 通过大小单占比因子构建,结合时间和订单两个维度的多元解耦,成功挖掘出超过90个有效因子。
- 实证显示,这些因子能有效揭示主力资金的时序动作与交易规模特点,转化为稳定且超额的选股能力。
- 未来“海量Level 2数据因子挖掘”系列将继续拓展因子库,持续探索市场深层交易逻辑。
- 报告末尾风险提示明确指出:
1. 市场政策、环境及结构变化可能导致模型失效。
2. 不同量化模型结果可能存在差异。
- 该报告兼备学理严谨与实证深度,是量化研究和策略设计的宝贵参考[page::30,31]
---
三、图表深度解读
1. 图1:高斯分布示意图
- 描述:展示了股票成交订单成交量大致服从正态分布,针对均值+N倍标准差的订单进行大小单划分。
- 解读:直观呈现统计阈值对应的大单比例,为后续大小单因子分层提供理论依据。
- 关联文本解释:明确大小单界定基于统计学方法提升分类合理性。[page::6]
2. 表2-5:大单占比因子各换仓周期表现
- 描述:数据统计了5日和20日换仓情况下,大小单因子的RankIC均值、胜率、年化收益率、最大回撤、夏普比率等核心指标。
- 解读:BigBuy1p0因子表现最佳,RankIC上升至7.9%,收益稳健。表现显示同一因子在较短换仓的收益较高,长换仓则稳定性提高。
- 关联文本及推断说明:大小单因子在不同调仓周期下的风险收益形态差异,指导策略调仓节奏选择。[page::7,8]
3. 表6-9:时间维度解耦因子表现
- 描述:因子按照关键交易时间段细分,统计出各时间段因子的表现指标。
- 解读:比如开盘后30分钟因子BigBuy1p009301000表现较优,可见开盘后时间窗口尤为重要。
- 关联分析:解耦提升时序敏感度,辅助捕获市场关键动作,但RankIC轻微下降提示噪声有所增加。[page::8~10]
4. 表10-13:订单维度解耦因子统计
- 描述:将大小单按买卖双方属性解耦,统计表现明显区分买大卖大与其他组合。
- 解读:大买大卖双大因子表现突出多空收益均高,最大回撤合理,夏普比率突出。
- 关联说明:投资者可基于该因子构建多空对冲组合以提高风险调整后收益。[page::12,13]
5. 表14-17:多维度时间+订单解耦因子
- 描述:多维解耦因子表现综合考量,具体细分到时间片段的买卖订单属性。
- 解读:以BigBuyBigSell1p0_09301000为代表因子,其5日及20日换仓表现均衡,实现优异信息效率与稳健回撤。
- 关联文本:此为因子细粒度提升的结果,兼顾收益与风险稳定性。[page::14~17]
6. 图2-19及对应表18-23:精选因子组合分板块表现
- 描述:多组图表和年度统计表,清晰展示精选因子组合在全市场及沪深300、中证500、中证800、中证1000、创业板的分档表现、累计收益曲线、RankIC变化及统计指标。
- 解读:
- 图表显示所有板块均显著正收益分档,多头端收益强劲;累计收益曲线远超板块指数,持续正RankIC强化因子有效性。
- 年度表彰显因子组合在疫情及不同市场环境均表现出较好抗风险能力和稳定超额收益。
- 创业板和全市场表现尤为亮眼,年化收益及夏普极高,最大回撤相对可控。
- 关联文本说明:体现大小单因子构建的量化策略跨市场、跨板块的广泛适用性,表现优异的风控风险调整能力。[page::20~29]
---
四、估值分析
本报告属于因子研究与策略表现验证,未展开股票具体估值分析或目标价格预测,故无传统DCF、市盈率等估值模型数据。策略基于统计学回归RankIC,多头多空组合年化收益及风险指标作为评价标准,侧重量化信号的预测有效性与风险调整收益表现。
---
五、风险因素评估
- 模型失效风险:因历史数据统计与建模得出,市场政策变动、环境变化会带来因子失效风险。
- 市场结构变更风险:交易结构、参与者行为变化均可能对因子有效性产生负面影响。
- 模型差异风险:不同量化模型可能导致观点或因子表现不一致。
- 报告的风险提示明确告知投资者策略非保证,将随市场环境变化。
- 风险应对:报告未具体指出缓解策略,但通过多维度因子解耦和多因子组合分散风险,隐含提升稳健性。
综上,风险提示兼顾透明性和严肃警示,提示投资者理性评估模型适用性与时效性。[page::0,31]
---
六、批判性视角与细微差别
- 因子界定创新性高,避免了传统固定金额大小单分类的弊端,从统计分布入手合理划分大小单,更适应不同股票属性。
- 多维度解耦拓展了因子信息密度和科学性,但也带来RankIC整体稍微下降的信号噪音,投资者需权衡收益与信号稳定。
- 未涉及因子相关性分析与多因子回归调优,未来可能深化因子净化和多因子联合策略合成。
- 未详细讨论交易成本、滑点影响,实际策略实施风险可能存在。
- 样本期含2020-2023市场极端波动,因子表现用历史验证效果强,但未来可变性仍需关注。
- 存在对多头因子关注较多,空头因子表现相对弱,可能限制策略对冲效率。
- 风险提示体现对市场环境适应性和模型替代风险的主动识别,符合量化策略合规与透明标准。
---
七、结论性综合
本报告系统且深入地挖掘了中国A股市场Level 2逐笔订单数据,在大小单订单的基础上,采用统计学阈值方法定义大小单,结合时间与订单两个维度对因子进行解耦,构建出93个大小单占比因子。
通过详细回测和统计,明确了大小单因子在5日、20日不同调仓周期下的表现差异,找出了表现最优的精选因子组合。精选组合在全市场及沪深300、中证500、800、1000及创业板各板块均取得了显著超额年化收益,夏普比率均保持在0.75以上,最大回撤均在合理范围,体现了较好的收益稳定性和风险控制能力。
图表清晰展示了精选因子组合分档收益的多头优势、累计收益稳步上升及RankIC表现的持续正相关性,验证了因子的预测有效性。尤其是在成长性板块(创业板、中证1000)表现尤为卓越。
整体而言,报告从原始交易数据的深层次挖掘到多维度精细解耦,再到优选因子组合的量化表现,构筑了完整的量化因子开发路径。此研究对于量化策略开发者及机构投资者在捕捉市场主力交易行为、构建稳健超额收益策略方面具备较强参考价值。
风险方面,报告诚实披露了模型可能失效的市场环境依赖性及策略局限,提示用户理性适用。
未来,基于此报告框架,量化研究将继续深化Level 2数据解析,拓宽因子库,增强策略适应性,以应对不断演化的市场环境。[page::0,1,4-31]
---
附录:部分重要图表示意
图1:高斯分布(大小单定义依据)

图2:精选大小单因子组合在全市场200档分档表现

图3:全市场精选因子组合累计收益曲线

图4:全市场精选因子组合RankIC走势

---
(注:因报告页数多,以上为关键图表摘选。其它板块图表与表格详见报告正文)
---
本次分析涵盖了报告的全面结构、关键章节的论述及数据表/图表的深度解读,确保投资者对文中因子构建方法、统计指标、实证表现及风险提示有清晰透彻的认识,有助于辅助量化策略开发和优化。