选股因子系列研究(七十五)——限价订单簿(LOB)的还原和应用
创建于 更新于
摘要
本报告基于沪深交易所逐笔委托Level2数据,系统介绍了限价订单簿(LOB)的还原方法及其在模拟撮合、TWAP算法交易策略改进及高频价量因子挖掘中的应用。报告通过构建基于LOB指标的买卖成交概率预测模型,有效提升TWAP策略限价单成交率并降低强制成交比例,提升交易成本效率;同时借助LOB数据分解买入意愿因子,验证了其选股效果,揭示了更多市场微观结构信息。最终强调非线性模型(如深度学习)在高频交易信号生成中的潜力[page::0][page::4][page::6][page::12][page::15][page::19]
速读内容
- 沪深交易所Level2数据包括快照行情与逐笔委托和成交数据,后者可精确还原盘口行情,提升更新频率至0.01秒内,且包含更丰富的委托量与时间戳信息,有助于实时跟踪订单簿[page::4][page::5][page::6]


- 利用逐笔数据构建模拟撮合系统,实现订单优先级精确判定,更合理估计委托订单的成交概率和交易成本,但对大额委托仍需更复杂模型支持[page::6][page::7]

- 比较市价单TWAP与限价单TWAP策略在京东方A、中国平安股票及证券ETF、创业板50ETF上的模拟结果,发现限价单策略在流动性较好时具有较低交易成本,但强制成交比例高时成本上涨显著,导致策略性能下降
| 证券/金额 | 时间段 | 限价单超额收益买入 | 限价单超额收益卖出 | 限价单胜率买入 | 限价单胜率卖出 | 强制成交比例买入 | 强制成交比例卖出 | 强制成交亏损买入 | 强制成交亏损卖出 |
|-----------|--------------|--------------------|--------------------|----------------|----------------|------------------|------------------|------------------|------------------|
| 京东方A 1000万 | 9:30-10:00 | 0.005% | 0.007% | 59.15% | 71.83% | 90.21% | 89.73% | -0.003% | -0.003% |
| 中国平安 1000万 | 9:30-10:00 | 0.004% | 0.007% | 67.61% | 78.87% | 47.71% | 43.97% | -0.006% | -0.005% |
| 证券ETF 200万 | 9:30-10:00 | 0.008% | 0.009% | 63.38% | 74.65% | 78.00% | 76.77% | -0.005% | -0.004% |
| 创业板50ETF 200万 | 9:30-10:00 | 0.006% | 0.002% | 56.34% | 61.97% | 87.05% | 86.94% | -0.001% | -0.001% |
[page::7][page::8]
- 构建买卖成交概率指标,量化3秒内买卖限价单成交率差异,基于此优化TWAP下单决策,提高限价单成交概率,降低强制成交比例,但指标存在滞后性,不能直接用于交易决策[page::8][page::9]


- 基于LOB基础指标(订单簿、订单流等)构建衍生指标,如订单簿相对强弱、成交相对强弱、挂单相对强弱和撤单相对强弱,对买卖成交概率进行回归预测,预测准确率与F-score均超50%,京东方A与证券ETF预测效果最佳[page::10][page::11][page::12]
| 证券 | 时间段 | MAE | MSE | R-square | 准确率 | F-score |
|---------------|-----------|------|------|----------|---------|---------|
| 京东方A | 9:30-10:00 | 0.526 | 0.616 | 0.068 | 64.0% | 67.7% |
| 京东方A | 10:00-10:30| 0.517 | 0.610 | 0.137 | 66.1% | 70.7% |
| 中国平安 | 9:30-10:00 | 0.318 | 0.466 | 0.020 | 55.5% | 59.2% |
| 证券ETF | 9:30-10:00 | 0.586 | 0.667 | 0.049 | 63.1% | 69.2% |
- 使用预测买卖成交概率优化TWAP策略,能大幅提高限价单成交概率,降低强制成交比例,模拟撮合测试显示,比传统市价单和限价单TWAP策略日均节省约0.3-1.4个基点交易成本,效果在京东方A和证券ETF上最优[page::13][page::14]

| 证券/金额 | 时间段 | 相对市价单超额收益买入 | 相对市价单胜率买入 | 相对限价单超额收益买入 | 相对限价单胜率买入 |
|-------------|------------|------------------------|--------------------|------------------------|--------------------|
| 京东方A1000万 | 9:30-10:00 | 0.016% | 87.32% | 0.008% | 71.83% |
| 证券ETF200万 | 9:30-10:00 | 0.006% | 67.61% | 0.004% | 71.83% |
- 利用LOB数据分解买入意愿因子为挂单、撤单、成交及被动净买入四个子因子,基于逐笔委托及成交数据的高频观测,基本重现快照数据买入意愿因子选股效果,验证因子稳定性和信息价值[page::15][page::16]

- 细分买入意愿因子中,开盘后被动净买入占比表现最佳,开盘后净撤单占比表现较差,且部分因子间存在较强相关性,应用逐次正交与IC加权复合优化因子权重后,综合因子选股效果略优于单一因子[page::17][page::18]
| 因子 | IC | IC-IR | IC胜率 | 多空月均收益 |
|-----------------------|-------|--------|---------|--------------|
| 复合因子(正交+IC加权)| 0.034 | 4.023 | 90.5% | 1.31% |
| 买入意愿占比(LOB) | 0.034 | 4.006 | 88.9% | 1.25% |
- 总结指出,逐笔数据带来的超高频率盘口还原和订单簿信息,为算法交易和高频因子研究提供了丰富的数据基础和思路。尽管线性模型在部分场景改进有限,但深度学习等非线性方法有望突破传统方法瓶颈,实现更高效的交易信号生成和策略优化[page::19]
深度阅读
研究报告详尽分析报告
---
1. 元数据与报告概览
报告标题:选股因子系列研究(七十五)——限价订单簿(LOB)的还原和应用
发布机构:海通证券股份有限公司研究所
分析师:冯佳睿、余浩淼
发布时间:2021年12月(报告内部多处数据使用至2021年中)
研究主题:本报告聚焦于沪深市场限价订单簿(Limit Order Book, LOB)的还原及其实际应用,主要探讨沪深Level2市场最细粒度的逐笔委托与成交数据对算法交易及高频价量因子的影响与优化方向。
核心论点及目标:
- 通过逐笔委托和逐笔成交数据的高频还原,能够细致描绘市场微观结构,提升对盘口行情及交易执行的洞察力。
- 基于LOB还原,报告设计和测试了改进的TWAP(时间加权平均价格)算法交易策略,从而优化交易成本、提升成交概率。
- 利用LOB提取的微观结构指标,报告探索了高频价量因子的挖掘及其在选股中的应用潜力。
- 最终强调传统线性模型的应用局限,提出深度学习等非线性方法或成为未来关键方向。
- 风险提示包括市场系统性风险、模型误设风险及有效因子变化风险。
报告整体以财务工程与量化交易的实证分析为主,目标客户为机构投资者及算法交易研发人员,旨在推动沪深市场量化交易技术及因子研究的深入发展。[page::0,4,19]
---
2. 逐节深度解读
2.1 限价订单簿(LOB)的还原
2.1.1 上交所、深交所Level2行情数据介绍与差异
市场数据分为快照行情和逐笔行情两大类,快照行情粒度为3秒或有变更时推送,包含当日价格极值、成交量、前十档买卖委托数据和买卖档明细。逐笔行情则分为逐笔委托和逐笔成交,粒度最高可达0.01秒,详细记录了委托单编号、价格、数量、方向及成交情况。
业内推测快照与逐笔行情由不同采样程序产生,且深沪两市逐笔行情结构存在显著差异:
- 深交所每0.01秒推送最新逐笔数据,上交所以3秒为周期集中推送。
- 撤单信息在深交所含于逐笔成交数据,上交所含于逐笔委托数据。
- 深交所价格为0/ -1的市价单订单需通过历史逐笔信息还原,上交所则较透明。
- 深交所逐笔成交订单全部可在逐笔委托中找到,上交所采集存在成交完全的订单缺失现象。
这意味着还原真实的LOB需因地制宜考虑交易所差异,处理难度大。[page::4]
2.1.2 集合竞价阶段LOB还原
集合竞价阶段快照行情仅提供买一卖一虚拟成交价和相关虚拟匹配量,无法有效捕捉多档价格的真实订单信息。报告采用逐笔委托数据结构还原集合竞价阶段的全价位买卖挂单情况,实现比快照更精准的市场状态描述(图1)。这对于理解开盘前市场意愿尤其重要。[page::5]
2.1.3 连续竞价阶段LOB还原
连续竞价阶段快照行情提供买卖十档价量信息及部分明细,更新频率较低(3秒)。利用逐笔委托数据还原后的LOB包括数百档价位信息及每档详细订单委托量和挂撤单时间点(图2、图3),能极大提高盘口信息更新频次、减少快照延迟、捕捉更全面的市场微观结构。
报告指出,沪深交易所快照推送存在时间延迟(普遍大于0.01秒),依据券代码排序依次推送导致部分证券快照信息滞后严重。利用逐笔数据还原可突破这一迟滞限制,实时精确跟踪盘口,提升行情响应时效。[page::5,6]
2.2 限价订单簿的应用1:模拟撮合与TWAP策略
2.2.1 模拟撮合系统
通过LOB还原,报告设计了基于买卖队列排序的虚拟订单撮合系统(图4)。该系统能够定位虚拟订单在卖一买一队列中的排位,实时追踪买卖订单的成交撤销顺序,准确判断虚拟订单是否能成交。
此模拟撮合方法可用于估算交易策略的真实交易成本,弥补传统回测低估交易费用的问题。缺点是对大宗虚拟订单无法有效模拟,未来需更复杂系统支撑。[page::6,7]
2.2.2 TWAP算法策略实证
报告以京东方A、中国平安股票及证券ETF、创业板50ETF为标的,模拟了限价单TWAP和市价单TWAP策略,设置多个交易时段与成交额度。
- 限价单TWAP策略定义为每3秒以最优限价下单,未成交撤销,并于每分钟末强制用市价成交所有未成交订单。
- 市价单TWAP策略为每3秒以市价单均匀下单。
结果(表2)显示:
- 大额成交时限价单策略表现下降(超额收益和胜率下降,强制成交比例和亏损上升),风险更明显,且流动性差时段风险更大。
- 过低限价单实际成交概率导致大量订单被迫强制市价成交,反而亏损扩大,侵蚀限价单优势收益。
因此,报告建议设计更智能的TWAP策略,尽量在每个3秒区间高概率完成交易,下降分钟末强制成交比例,提升整体执行质量。[page::7,8]
2.3 限价订单簿应用2:改进TWAP策略
2.3.1 买卖成交概率指标定义
报告定义了买卖成交概率指标 (TradeRatio),计算3秒内成交量最大的限价买入订单占总买入委托量比例,减去成交量最大的卖出订单占其委托量比例,反映限价买卖哪个方向成交概率较高。
利用此指标,可智能选择下单时市价单或限价单,买入时买卖成交概率>0则用限价单,否则用市价单,卖出相反。该策略显著提高限价单成交概率,降低强制成交比例(图5-12)。
但因该指标依赖3秒后成交数据,实际下单时无法使用,存在滞后性。[page::8,9,10]
2.3.2 基于LOB衍生指标的预测改善
为实用性,将目标转为基于可知的限价订单簿(LOB)指标预测未来3秒买卖成交概率。
- 从LOB中提取订单簿指标(买卖委托价、挂单量、委托单数)与订单流指标(委托、成交、撤单量等细节)(表3)。
- 构造4个LOB衍生相对强弱指标:订单簿相对强弱、成交相对强弱、挂单相对强弱、撤单相对强弱,均衡量买卖委托力量对比。
- 4指标均基于最新3秒数据计算,分别反映买卖订单簿、成交及委托动态的均势关系。
以2016年6-8月数据测试这4指标与买卖成交概率的IC(信息系数)结果表现良好(表4),尤订单簿和挂单相对强弱预测力强。
基于这些指标,采用每日更新的回归模型对买卖成交概率进行预测(表5),线性预测模型在回归指标如MSE/MAE较差,但分类指标(准确率与F-score)表现较好,尤其对京东方和证券ETF准确率超过60%以上。
用此预测值指导TWAP下单策略,实测同样显著提升限价单成交率,降低强制成交(图13-20),并实现平均0.3-1.4个基点的交易成本下降(表6)。
但改进对部分证券(中国平安、创业板50ETF)效果有限,说明策略需针对不同证券做特定调整。[page::10,11,12,13,14]
2.4 限价订单簿应用3:高频价量因子挖掘
2.4.1 买入意愿因子的LOB指标深度分解
报告基于此前研究,定义买入意愿因子为开盘9:30-10:00间净委买增额与净主买成交额之和,占总成交额的比率。
- 净委买增额依托盘口变动,反映订单买单增量减去卖单增量。
- 净主买成交反映主动买卖成交金额的差。
通过逐笔委托和成交数据,报告将买入意愿分解为挂单增量、撤单增量、成交金额及净被动买入等四部分(图21,22),且基于从LOB还原的价格区间合并计算,精细刻画微观市场动态。
这使得买入意愿因子能够多维度地反映投资者行为与订单簿流动性变化。
选股效果显示,基于LOB这些结构指标计算的买入意愿因子,与传统快照数据计算得出的因子在IC值、收益等方面几乎完全一致(表7)。
说明从LOB起点重构指标对因子选股效果未造成明显损失,但提供更多维度观察与潜在特征。[page::15,16,17]
2.4.2 LOB衍生指标特征挖掘及因子合成探讨
进一步单独分析买入意愿4个细分因子,发现被动净买入占比及净成交占比对选股IC贡献最大,撤单因子几乎无贡献;不同细分因子两两相关性存在一定结构(表8,9)。
尝试采用先正交处理再基于IC加权的非等权线性组合重新构建复合因子,略微提升了IC-IR和选股收益(表10)。表明单纯等权线性合成可能受限,非等权、非线性合成路径更优。
报告强调,尽管本文仅应用线性方法,但LOB提供了开发海量微观市场特征的可能,未来深度学习等非线性模型有望突破线性合成的瓶颈,挖掘更有价值的高频因子。这将成为后续研究重点。[page::17,18]
---
3. 图表深度解读
3.1 盘口还原示例(图1、2、3)
- 图1展示了集合竞价阶段,快照行情仅含买卖一档数据,且价格相同为虚拟成交价,而逐笔数据还原后,可获得真实订单簿多档挂单分布,信息量丰富。
- 图2则展示连续竞价阶段一组快照行情的买卖多档价位及挂单量,更新较粗,欠缺更细的订单信息。
- 图3结合逐笔数据还原出连续竞价代理行情的现金盘口状态,显示实时高频订单变动及成交,补充快照更新的滞后。
这些图表生动说明逐笔高频数据还原盘口的优势,提前0.01秒甚至更高频获取市场卖买力量,有助于精细化分析订单簿动态。[page::5,6]
3.2 模拟撮合过程示例(图4)
展示虚拟卖单插入卖一队列尾部并等待撮合成交的过程。图示支持模型捕捉订单排队优先级与成交时机,验证模拟撮合系统设计的合理性。该模拟是评估算法策略交易成本的关键工具。[page::7]
3.3 限价单成交概率与强制成交比例对比(图5-12)
- 图5、7、9、11呈现基准限价单TWAP及改进策略成交概率,改进策略显著提高了所有测试证券的限价单成交概率。
- 图6、8、10、12同步展示强制成交比例,改进策略大幅降低了分钟末由未成交订单造成的强制市价成交比例。
该对比充分佐证了利用LOB信息改良TWAP策略的有效性,成功减少了隐藏并发风险,优化了交易执行。[page::9,10]
3.4 改进TWAP策略实际成交概率与强制成交对比(图13-20)
- 这组图表进一步引入基于LOB指标的买卖成交概率预测值,展示简单限价TWAP、改进TWAP与预期买卖概率三者的对照。
- 结果显示,基于预测的策略在成交率和强制成交比例控制方面,接近理想状态的买卖成交概率指标,明显优于基本限价TWAP。
- 对应证券包括京东方A、中国平安、证券ETF、创业板50ETF,均体现不同程度的改进,但后两者提升较弱。
这些图展示了本报告提出基于预测的动态市价/限价单切换策略的现实可行性和有效性。[page::13,14]
3.5 买入意愿因子市场结构示意(图21、22)
- 图21、22详示基于快照与逐笔数据分别计算得到的买入意愿,包含挂单与撤单、主动买卖成交的微观变动展示,显示LOB能够细致还原多价位订单簿动态,提供因子计算所需详细信息。
图形和对应时间节点说明买入意愿计算的精确性及步骤,为后续因子分解构建提供基础。[page::15,16]
---
4. 估值分析
报告核心不在传统公司估值,而是算法交易策略性能的“估值”,即策略交易成本的估算与优化。通过模拟撮合系统结合LOB还原数据,报告评估TWAP算法策略表现。通过结果数据、IC指标及各种指标回归模型,量化交易策略优化路径及选股因子有效性。
其估值方法带有实证统计与回归成分,而非传统DCF等财务模型,关键在利用市场微观数据还原构建模型,提供基于交易成本和成交概率的策略“价值评估”。这是一种金融工程领域内的策略性能估值,强调“成本节约”转化为“策略优越性”价值。[page::7-14]
---
5. 风险因素评估
- 市场系统性风险:包括整体市场行情波动将直接影响算法执行效果和因子有效性。
- 模型误设风险:报告多处采用线性模型,存在与实际微观市场行为不符的风险,可能导致预测和回归失真。
- 有效因子变动风险:高频微观结构特征的稳定性难以保证,市场参与者行为变化可能导致因子失效。
报告强调需结合市场变化动态调整模型,且建议未来引入更复杂非线性模型降低误设风险。[page::0,19]
---
6. 审慎视角与细微差别
- 报告大量采用线性模型对高频LOB数据进行处理与预测,但后续发现线性预测能力有限,MSE与R-square较低,表明模型对复杂高频市场信号的捕捉能力不够。
- 买卖成交概率指标作为实际理想下单决策依据,因滞后性不可直接实用,报告创造基于历史LOB指标的预测方法替代,有实用价值;但模型效果差异明显,不同证券表现迥异,表明策略通用性有限,需针对性调整。
- 买入意愿因子与其LOB衍生因子经过分解和重组,选股效果并未明显优于原指标,表明简单线性组合可能限制了信息提取效率,暗示后续需要使用非线性方法如深度学习拓展因子挖掘。
- 虽然优化方案在部分证券表现出稳定的交易成本降低,但也存在部分证券(中国平安、创业板50ETF)策略改进难显著降低成本,极有可能是流动性和市场结构差异导致实际效果受限。
- 报告未涉及策略执行层面的交易延迟、滑点及资金量带来的冲击成本的深度模拟,这对于大额订单策略尤为重要。
- 文中图片与表格完整且清晰,但部分复杂公式表达需要进一步规范,使非领域内人士理解门槛较高。
综上,报告在充分挖掘LOB价值的同时,承认线性模型瓶颈,提出未来升级路径,客观评估了策略实用条件和风险限制,整体具有较高的研究价值和实践指导意义。[page::12-18]
---
7. 结论性综合
本报告围绕沪深市场逐笔委托与成交的Level2高频数据展开研究,重点在于通过LOB还原及挖掘,推动算法交易策略(特别是TWAP策略)的性能改善及高频价量因子的开发。基于详尽的数据结构解析、买卖挂单及成交行为模拟及多证券实证对比,得出以下关键结论:
- LOB还原提升盘口信息丰富度与更新频率:集合竞价阶段通过逐笔委托数据构建多档订单簿,连续竞价阶段可将更新粒度由3秒提升至0.01秒级别,显著减少行情迟滞及失真。
- LOB驱动的模拟撮合系统可实现在回测中准确估计交易成本,对算法交易策略的执行效果做更合理判断。
- 基于买卖成交概率的TWAP策略改进显著提升成交概率、降低强制成交比例,但其滞后特性限制实际应用,需借助可即时获取的LOB衍生指标进行预测。
- 利用4个LOB衍生指标结合回归模型对成交概率进行预测,能够实现在部分证券(京东方A、证券ETF)上的有效改进,带来约0.3-1.4基点的交易成本降低。对其他证券的效果有限,说明策略需个性化设计。
- 基于LOB且细分的买入意愿因子与传统快照法表现无显著差异,但LOBS提供了更多维度多因子构造的可能,为高频因子研究开拓广阔空间。
- 线性模型表现虽有限,但为后续采用深度学习等非线性模型奠定坚实基础,成为下一步重要发展方向。
从图表与表格深度分析看,LOB数据的引入为算法交易策略的优化提供了丰富真实的微观市场结构信息,催生更智能化的交易决策。报告不仅在理论上系统阐述了LOB数据结构及指标构建,且通过实证回测验证了策略收益改进和成本控制的实际效果,内容详实、科学严谨。
系统风险、模型局限性及因子稳定性风险虽不容忽视,但报告提供了清晰的风险提示,足以支撑报告结论的科学性。本报告无疑为中国A股量化交易领域在深层次微观结构分析和高频因子挖掘上树立了新的标杆,并为机构投资者提升交易智能化水平提供了具备实操意义的技术路径和理论支撑。[page::0-20]
---
总体评价
本报告以严谨的数据分析和充分的实证结果,详尽剖析了限价订单簿的还原技术及其量化交易中的应用价值。通过对立足于沪深市场的数据结构特性及实测反馈的深入探讨,报告展现了量化投资领域推动市场微观结构信息利用的前沿进展。报告系统地涵盖了从数据采集理论,到算法模拟实现,再到算法策略优化及因子深化分析的完整技术链,是当前A股市场算法交易和高频选股因子研究不可或缺的重要参考。
---
(注:报告所有引用均标注对应页码,确保内容溯源)([page::0-22])