【国信金工】高频订单成交数据蕴含的Alpha信息
创建于 更新于
摘要
本报告围绕高频逐笔成交数据,深入挖掘订单大小、成交时长、成交时间、出价高低等多维度特征所蕴含的Alpha因子价值。重点构建了基于订单大小的改进大单交易占比因子和基于订单成交时长的漫长订单交易占比因子,并结合两者进行复合,提升因子选股能力。在严格行业市值中性化及多维度剥离后,复合因子依然展现稳定且显著的选股能力,适用范围涵盖多种股票池及调仓频率,反映了高频订单交易行为对未来收益的有效预测价值[page::0][page::11][page::14][page::20][page::24][page::27][page::31]
速读内容
- 高频订单数据粒度与信息优势 [page::0][page::1][page::2]

- 逐笔成交数据包含每笔成交的买卖双方订单信息,较日频、分钟级数据具有更细粒度与丰富度。
- 不同的日内走势在传统日K线中无法体现,逐笔数据可捕捉日内资金行为差异,提高预测效率。
- 逐笔成交数据结构及订单定义 [page::2][page::3]
- 数据包含成交时间、价格、量、委买/委卖ID及委托价格等12项信息。
- 一笔成交由买卖双方相匹配订单组成,同一委托订单可能分多笔成交。
- 高频订单考察维度及因子构建思路 [page::4][page::5]

- 订单大小、成交时长、成交时间、出价高低为核心维度。
- 构造成交量占比因子,通过分析订单特征分类的成交量占全天总成交量的比例评估选股能力。
- 大单交易占比因子构建与优化 [page::5–page::11]


- 采用分位点法区分大单,通过委买单及委卖单成交量加总构建大单买入/卖出交易占比因子。
- 传统因子表现稳定但效果有限(年化RankICIR=2.05,月胜率66.7%)。
- 深入拆解大单买单与卖单组合子因子,发现方向不一致,导致整体因子效果弱化。
- 通过调整子因子权重与方向,构建改进大单交易占比因子,绩效显著提升(年化RankICIR=3.73,月胜率88.1%)。
- 多头组合年化超额收益9.43%,空头组合-18.11%。
- 漫长订单交易占比因子构建与研究 [page::11–page::15]

- 订单成交时长定义为首次成交至最后一次成交的时差,剔除集合竞价交易。
- 采用分位点法划分漫长订单,构建漫长买单及卖单交易占比因子,二者高度正相关(相关系数0.68)。
- 漫长订单交易占比因子表现优异,年化RankICIR=3.88,月胜率84.5%,多头组合年化超额收益10.03%,空头-12.78%。
- 订单成交属性多维拆解及其他维度探索 [page::15–page::17]

- 对漫长订单因子进一步拆解,三个子因子均贡献正向Alpha。
- 探索其他维度:早尾盘属性与高低价属性因子,早盘及尾盘订单均呈显著反转效应,非早尾盘订单呈动量效应,高价单表现反转,非高低价单表现动量。
- 复合早尾盘交易占比因子有效,年化RankICIR达3.36。
- 大单与漫长订单复合因子及样本空间表现 [page::18–page::22]


- 改进大单交易占比因子与漫长订单交易占比因子相关系数约为0.54,但两者互剔除后残差因子仍保持显著选股能力,表明信息互补。
- 通过等权合成构建复合因子,年化RankICIR 4.39,月胜率88.1%,多头年化超额收益11.01%。
- 在不同风格和规模股票池中复合因子均表现稳健,选股能力不受样本限制。
- 周频调仓版同样表现优异,周度RankIC均值5.1%,年化RankICIR为5.42,周胜率78.4%。
- 基于订单特征的成交量占比因子统一框架及精选复合因子构建 [page::24–page::28]
- 利用大单属性(Big)及漫长属性(Long)对买卖单分别分类,形成16类成交类型,精细拆解订单行为。
- 改进大单交易占比和漫长订单占比均可由对应类别线性组合得到。
- 挑选5个有效子因子构建精选复合因子(VolumeLongBigSelect),表现优于简单复合,年化RankICIR达5.06,月胜率90.5%,多头年化超额收益11.68%。
- 周频调仓精选复合因子同样稳定,年化RankICIR达6.57,周胜率82.6%,多头年化超额收益13.41%。
- 复合因子特征及与其他因子关系 [page::23][page::24]

- 复合因子多头倾向于低估值、大市值、低波动和低换手股票。
- 与成长及分析师类因子相关性较弱,剔除传统因子影响后,纯净因子仍具有较强的选股能力。
- 参数敏感性及稳定性检验 [page::29][page::30]


- 对大单及漫长订单划分阈值进行敏感性测试,因子在5%-20%阈值间均表现稳健,最佳阈值附近为10%。
- 研究总结及意义 [page::31]
- 本文深入高频逐笔成交数据,构建基于订单大小及成交时长的高频因子及其复合体。
- 因子体系呈现稳健、显著的选股能力,适用多种样本空间和调仓频率。
- 为高频交易行为的量化研究及Alpha挖掘提供统一且精细化的框架支持。
深度阅读
【国信金工】高频订单成交数据蕴含的Alpha信息 —— 深度解析报告
一、元数据与概览
- 报告标题:《高频订单成交数据蕴含的Alpha信息》
- 作者:张欣慰、张宇
- 发布机构:国信证券经济研究所
- 发布日期:2024年1月11日
- 研究主题:基于中国A股市场的高频订单数据,挖掘逐笔成交数据中蕴含的Alpha选股因子,重点分析订单大小、大单交易占比、订单成交时长、漫长订单占比以及早尾盘、高低价属性,最终构建基于订单特征的复合Alpha因子。
报告核心观点:报告以市场高频逐笔成交数据为基础,深挖订单属性对未来股价收益的预测能力,提出在大单交易占比和漫长订单占比分别构造选股因子,经过改进后形成的“改进大单交易占比因子”及“漫长订单交易占比因子”表现良好。通过合成复合因子,可以进一步提升选股因子的预测效率和稳定性。报告还建立统一框架,支持多维度特征同时考察,有效补充传统量价数据因子体系,提供投资组合超额收益机会。整体选股能力强,适用于月频及周频调仓,且对不同细分市场和风格有较好适应性。
---
二、逐章深度解读
1. 报告引言与研究背景
报告首先介绍了从日频行情到更为细粒度的逐笔成交数据的演进。传统量价因子多用日频或分钟频数据,受限于颗粒度及信息深度。逐笔成交数据保留了更原始的买卖双方订单信息,包含成交时间、价格、量及买卖双方订单特征等,能揭示市场中投资者间的博弈与资金分歧状态。
- 以图1展示“相同K线不同日内走势”示例,阐释了低频K线难以捕捉日内资金动态;
- 图2和图3图解了数据从订单数据到成交数据再到行情数据的形成过程,强化了逐笔数据在Alpha挖掘中的核心地位。
2. 逐笔成交数据介绍
逐笔成交数据由12个核心字段构成(表1),包括股票代码、成交时间、成交价格、成交量、委买卖单价格及数量、委买卖单ID等。委买单和委卖单ID标识唯一订单,允许拆分和多笔成交。
例如表2贵州茅台数据,展示同一委托ID如何拆分为多笔成交。图4揭示近年来市场委托订单及成交数目显著提升,表明资金博弈加剧,数据样本丰富可靠。
3. 高频订单考察维度
报告明确提出高频订单考察四大核心维度(图5):
- 订单大小(大单、超大单、小单)
- 成交时长(漫长订单与非漫长订单)
- 成交时间(早盘、尾盘)
- 出价高低(高价单、低价单)
每种维度均能映射不同投资者类型及行为特征,进而影响股票未来表现。
---
4. 基于订单大小构建大单交易占比因子
4.1 大单定义与划分方法
- 绝对金额划分存在局限,根据不同市值股票订单成交金额存在明显分位差异(图6)。
- 报告采用分位点划分法,对每只股票每天买卖委托订单按成交量统计,取前10%大单为“大单”。图7示意订单分拆及合并过程,确保度量准确。
4.2 传统大单交易占比因子构造
- 分别构造大买单占比(VolumeBigBuy)与大卖单占比(VolumeBigSell),二者高度正相关(图8,平均相关系数0.93),合并为传统大单交易占比因子(VolumeBigOrigin)。
- 选股表现:RankIC均值4.8%,年化ICIR 2.05,月胜率约66.7%,分组超额收益呈现单调性(图9、10),因子具有一定稳定性(月度自相关0.90)。
4.3 传统大单交易占比因子拆解与改进
- 将委买单和委卖单是否为大单划分的4类成交组合拆解(图11、12),发现不同子因子表现方向不一致(表3),导致整体因子表现受限。
- 调整子因子权重(反向调节委买大单/委卖非大单及非大买单/委卖大单子因子方向),构建“改进大单交易占比”因子(VolumeBig)(图13、14)。
- 改进后因子表现显著提升:RankIC均值7.6%,年化干预3.73,月胜率88.1%,多头年化超额收益达9.43%,空头收益为-18.11%,月度自相关0.81,稳定且更具预测力(图15、16,表4)。
---
5. 基于订单成交时长构建漫长订单交易占比因子
5.1 成交时长定义及特征
- 成交时长定义为订单首次成交到最后一次成交间的连续竞价时间,排除集合竞价及午休。
- 实际案例(图17)显示成交时长与订单大小不完全相关,存在成交小单长时间等待的现象,说明成交时长反映更复杂的市场分歧特征。
5.2 漫长订单划分与因子构建
- 采用同样分位数方法,取前10%最长成交订单为漫长订单,分别计算漫长买单占比及卖单占比(图19)。
- 漫长买单和卖单占比分别构成两个子因子,彼此相关度为0.68(图20),合并得到漫长订单交易占比因子(VolumeLong)。
- 选股表现:RankIC均值7.1%,年化ICIR3.88,月胜率84.5%,超额收益0.87%(图21、22),表现稳定,年度表现稳健(图23、24,表5)。
5.3 漫长订单交易占比拆解
- 将漫长买单与卖单拆分成三类成交,表现均为正向(表6,图25),因子不做方向调整。
---
6. 大单交易占比因子与漫长订单交易占比因子的相关性与联合
- 二因子中度相关(平均0.54,图28)但各自剔除对方信息残差因子依然有效,RankIC仍达4%-5%(图29-32),揭示两因子蕴含互补信号。
- 因此采取等权结合形成“大单及漫长订单复合因子”(VolumeLongBig)(图33、34),提升整体预测能力:RankIC均值8.4%,年化ICIR4.39,月胜率88.1%,月超额收益0.95%,多头年化超额11.01%(图35、36)。
6.1 在不同样本空间中的表现
- 复合因子在沪深300、中证500、中证1000、国证2000等不同宽基指数及小市值、公募重仓、高股息等多风格股票池中均表现稳健(表9,图37、38)。
- 选股能力在样本覆盖广、市值小的中证1000与国证2000表现尤为突出。
6.2 周频调仓复合因子
- 周频调仓同样表现良好,周度RankIC均值5.1%,年化IR5.42,周胜率78.4%(图39、40),年化多头超额达13.11%,优于月频调仓策略(图41、42,表13)。
- 精选复合因子加强版在周频下效果更佳,RankICIR提升至6.57,周胜率82.6%(图50-53)。
---
7. 基于订单特征的成交量占比因子的统一框架与精选复合因子
报 告进一 步从 大单属 性 和 漫长属性 两维度构建16种订单类型(4大单组合×4漫长组合,表10),形成全维度成交细分。
针对16类因子做了性能测试,挑选表现稳定的5个因子(表11,标黄),再对这5个因子进行等权线性组合形成“基于订单特征的精选复合因子”(VolumeLongBigSelect)(图46、47),表现优于简单大单及漫长订单复合因子,RankIC均值8.5%,IR达5.06,月度胜率超90%,多头年化收益11.68%(图48、49,表12)。
精选复合因子周频交易表现同样优秀,RankIC均值5.2%,IR6.57,周胜率82.6%,年化多头超额13.41%(图50-53,表13)。
8. 因子相关性分析
- 复合因子与常见基本面及技术选股因子相关性分析(图43)表明,复合因子倾向于捕捉低估值、大市值、低波动、低换手等特征,成长类和分析师因子相关性较低,表明其能为传统因子库提供明显增量信息。
- 通过剔除传统因子污染后形成纯净复合因子,依然存在显著的选股能力,RankIC均值4.6%,IR4.63,月胜率90.5%,说明该因子的alpha信号较为纯粹且稳定(图44、45)。
---
9. 参数敏感性测试
- 大单因子阈值由5%到20%调整,因子选股能力稳定无明显下降,参数鲁棒(图54、55)。
- 漫长订单因子10%是合理阈值,因超过10%以上阈值数据量急剧减少(图56),参数灵敏性体现于阈值过大时因子表现开始衰减(图57、58)。
---
三、图表深度解读
- 图1示例鲜明,说明日K线未能反映的日内走势对后续走势预测的重要性,强调细粒度时间序列数据价值。
- 图4显示逐笔交易与委托订单激增,反映市场活跃度加强及数据可用性变好。
- 图6大单金额与市值相关,强调绝对金额划分局限。
- 图8大买单与大卖单高度相关,提示成交双方行为联动性显著。
- 图9-10,13-14展示传统及改进大单因子RankIC和超额收益,改进因子明显提升。
- 图15-16改进大单因子多头净值持续上升,体现令牌的长期稳定性与盈利性。
- 图18说明大单与漫长订单不完全重合,成交时长提供独立增量信息。
- 图21-24漫长订单因子效能及净值表现均优秀。
- 图28-32残差因子剥离表明两大因子间虽有相关,但包含独立信息,均保留选股能力。
- 图33-38复合因子及其在不同细分市场的稳健表现。
- 图39-42;图50-53体现复合因子在月频及周频调仓下均有优异表现,周频略优,适应多样化策略需要。
- 图43-45复合因子与其他常见因子相关性及剔除影响后的纯净alpha表现。
- 图54-58参数敏感性检验保障因子稳定和鲁棒。
---
四、估值分析
本报告核心为Alpha因子挖掘,未涉及估值模型,故无DCF、PE、EV/EBITDA等估值展开。
---
五、风险因素评估
报告对潜在风险提示主要为:
- 市场环境变化风险,包括流动性波动、新规则冲击等可能影响因子有效性;
- 因子失效风险,数据特征可能随市场结构及投资者行为变异,导致模型衰退;
- 策略执行风险,如交易成本、样本外效用下降;
- 报告中未详述具体缓解措施,投资者应结合动态调研与组合风险控制手段。
---
六、批判性视角与细微差别
- 报告基于较长区间回测验证,方法体系严谨,层层递进。但大单定义在不同市场环境、板块、个股差异仍可能影响外推适用性。
- 漫长订单阈值设定10%合理,但成交时长是交易行为非价格行为的映射,可能受交易策略及市场微结构影响,解释需谨慎。
- 不同维度的复合因子组合属经验模型,未深度揭示背后微观机制,后续研究可考虑结合投资者行为模型加强理论指导。
- 数据来源依赖Wind及券商数据,数据质量及异常检测细节缺乏披露,存在潜在噪音风险。
- 与传统选股因子相关性分析表现良好,但是否完全排除滞后效应及共性暴露需持续关注。
---
七、结论性综合
本份由国信证券经济研究所发布的报告系统梳理并深挖了中国A股市场逐笔成交数据中订单的多维度特征对未来股票收益的预测信息。通过构建基于“订单大小”与“订单成交时长”两个核心维度的成交量占比因子,报告发现:
- 传统以绝对金额划分的大单交易占比因子表现一般,通过拆解买卖双方大单属性与调整方向显著提升因子有效性,构建出“改进大单交易占比因子”,赢得更高的RankIC均值(7.6%)、更强稳定性及收益表现。
- 订单成交时长维度构建“漫长订单交易占比因子”同样表现不俗,RankIC均值7.1%,表明交易耗时信息同样蕴含Alpha信号。
- 两因子虽相关,但保留各自独立信息,剔除对方影响后依旧具备稳定预测力,合成的“复合因子”进一步提升到8.4% RankIC均值,多头年化超额收益逾11%,且适用不同样本及频率。
- 进一步基于订单大单与成交时长特征,共细分16个成交类型构建更高维度“精选复合因子”,其绩效指标和稳定性优于简单复合因子。多频率回测显示,周频调仓精选复合因子表现尤为稳健,年化超额收益达13%以上。
- 复合因子偏好低估值、大市值、低波动、低换手股票,并且与成长及分析师等传统因子相关度低,能显著贡献增量Alpha。
- 参数敏感性检验表明,划分阈值调整不会显著影响因子效率,因子具有良好稳定性和鲁棒性。
整体而言,本报告提供了一个系统且严谨的基于高频逐笔订单数据挖掘Alpha信号的范式,理论与实证均表明高频订单特征信息可显著丰富量价因子体系,是未来量化选股和市场微结构研究的重要方向。报告结论经过多角度实证验证,具备较强的应用价值和推广潜力。
---
参考文献与附录
- 报告详细附带丰富图表,包括示意图、分组表现、相关性分析及敏感性检验,均以直观形式支持论断。
- 相关报道取自Wind及国信证券数据库,确保数据来源权威可靠。
- 报告后附风险提示及法律声明,提请投资者注意市场风险和研究局限。
---
图片索引示例
- 完全相同的日度K线对应不同日内走势(图1)

- 订单到行情数据演变示意(图3)

- 改进大单交易占比因子表现(图13)

- 漫长订单交易占比因子表现(图21)

- 大单及漫长订单复合因子表现(图33)

- 精选复合因子表现(图46)

(完整图片索引详见报告页码对应内容)
---
综上,本报告是一篇结合高频逐笔订单数据与传统量价选股策略的前沿研究,扎实的数据分析、严密的因子构造及多维度验证,为投资者发掘和利用市场深层次交易信息提供了丰富思路和实证依据,值得深入研读与实践参考。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]