选股因子系列研究(七十五)——限价订单簿(LOB)的还原和应用
创建于 更新于
摘要
本报告基于沪深两市Level2逐笔委托和逐笔成交高频数据,介绍限价订单簿(LOB)还原方法,并基于LOB数据构建模拟撮合系统,比较市价单和限价单TWAP策略表现,提出基于LOB衍生指标的买卖成交概率预测模型以改进TWAP策略,实现成本降低。同时,将买入意愿因子细化为挂单、撤单、成交、净买入四部分,提升高频价量因子挖掘的多维视角,并指出未来深度学习及非线性方法的重要性。[page::0][page::6][page::7][page::9][page::11][page::15][page::19]
速读内容
限价订单簿(LOB)还原及数据特征说明 [page::4][page::5][page::6]
- 逐笔委托及成交数据采样频率达0.01秒,支持还原比快照行情更丰富的盘口信息。
- 集合竞价阶段逐笔数据还原显示盘口挂单的精细价位分布,对连续竞价阶段盘口实时追踪,避免快照延迟影响投资决策。
- 图1-3直观展示了集合竞价和连续竞价阶段快照行情与逐笔数据还原的盘口对比。



模拟撮合系统及TWAP算法策略比较 [page::6][page::7][page::8]
- 基于逐笔数据精确模拟订单优先级与撮合过程,提升交易成本估计准确性。示意图4详述委托队列撮合机制。

- TWAP策略测试显示限价单TWAP与市价单TWAP在流动性与成交金额不同条件下性能差异显著。限价单TWAP在流动性充裕时能降低交易成本,但强制成交比例高时反而亏损。
- 表2量化对比限价单TWAP各维度表现,说明强制成交与成本之间负相关性。
| 标的 | 成交金额 | 时间段 | 买入超额收益 | 卖出超额收益 | 买入胜率 | 卖出胜率 | 强制成交比例买入 | 强制成交比例卖出 | 强制成交亏损买入 | 强制成交亏损卖出 |
|-------|----------|---------|-------------|-------------|----------|----------|------------------|------------------|------------------|------------------|
| 京东方A | 1亿 | 9:30-10:00 | -0.005% | -0.003% | 28.17% | 35.21% | 90.74% | 90.23% | -0.017% | -0.016% |
| 中国平安 | 1000万 | 9:30-10:00 | 0.004% | 0.007% | 67.61% | 78.87% | 47.71% | 43.97% | -0.006% | -0.005% |
| 证券ETF | 1亿 | 10:00-10:30 | -0.011% | -0.013% | 8.45% | 11.27% | 67.76% | 65.53% | -0.026% | -0.031% |
| 创业板50ETF | 2000万 | 10:00-10:30 | -0.007% | -0.012% | 35.21% | 19.72% | 88.75% | 88.38% | -0.018% | -0.018% |
基于限价订单簿(LOB)指标构建买卖成交概率及改进TWAP策略 [page::8][page::9][page::10][page::11][page::12][page::13][page::14]
- 构造买卖成交概率指标,判定买卖委托限价单的相对成交可能性,根据该概率动态选择限价或市价单下单,显著提升成交概率、减少强制成交比例。
- 由于买卖成交概率需要未来3秒成交信息,报告引入基于LOB衍生指标(订单簿相对强弱、挂单相对强弱、成交相对强弱、撤单相对强弱)构建预测模型,以历史数据回归预测买卖成交概率,实现实时下单决策。
- 模型预测准确率超过60%,F-score超65%,对于京东方A和证券ETF表现优异。
- 改进TWAP策略在模拟撮合系统回测中,显示日均成本节省达0.3-1.4个基点,明显优于简单TWAP策略,尤其对京东方A和证券ETF效果显著,但对部分个股效果有限。




高频价量因子挖掘:买入意愿因子细分与因子构建 [page::15][page::16][page::17][page::18]
- 买入意愿因子通过委买委卖挂单、成交及撤单量的时段变化计算,刻画投资者净买入意愿,基于盘口快照及逐笔数据均可计算,效果一致。
- 对买入意愿因子进一步细分成净挂单、净撤单、净成交和被动净买入四个因子,选股效果及IC、IC-IR分析显示被动净买入因子贡献最大,净撤单几乎无效。
- 相关性分析表明部分因子高度相关,采用正交加权方法重构复合因子,略优于简单等权合成,但提升有限。
- 进一步说明LOB数据为高频因子提供丰富原材料,非线性合成(如深度学习)是未来探索重点。
| 因子 | IC | IC-IR | IC胜率 | 多空月均收益 | 多头月均收益 | 空头月均收益 |
|-------|----|-------|--------|--------------|--------------|--------------|
| 被动净买入占比 | -0.027 | -2.942 | 19.0% | 1.38% | 0.59% | -0.34% |
| 净成交占比 | -0.022 | -2.452 | 19.0% | 1.37% | 0.49% | -0.33% |
| 净挂单占比 | 0.014 | 1.728 | 69.8% | 0.50% | 0.38% | -0.12% |
| 净撤单占比 | 0.009 | 1.392 | 66.7% | 0.32% | 0.54% | 0.23% |
| 复合因子(正交+IC加权) | 0.034 | 4.023 | 90.5% | 1.31% | 0.79% | -0.51% |


总结与展望 [page::19]
- 沪深Level2逐笔数据的推出,为市场微观结构与投资者行为分析提供了前所未有的高频细节。
- 通过LOB还原、模拟撮合、TWAP算法交易策略改进和高频价量因子构建,揭示了高频数据向量价值,但线性模型在捕捉复杂非线性信号方面能力有限。
- 深度学习等非线性模型被认为是未来高频因子挖掘与交易信号生成的重要方向。
深度阅读
海通证券研究所:《限价订单簿(LOB)的还原和应用》详尽分析报告
---
一、元数据与报告概览
- 报告标题: 限价订单簿(LOB)的还原和应用
- 作者与机构: 海通证券研究所金融工程团队,主要分析师冯佳睿、余浩淼
- 发布日期: 2021年12月(报告引用数据至2021年8月,研究时点为2021年中)
- 研究主题: 以沪深交易所逐笔委托Level2高频数据为基础,深入探讨限价订单簿(Limit Order Book,LOB)的还原技术及其在算法交易(尤其TWAP策略)和高频因子挖掘上的应用
- 核心论点:
- 沪深两市Level2逐笔委托与成交数据已完整提供,能够高精度还原LOB全貌
- 利用LOB数据能够改进算法交易策略(尤其限价单TWAP),有效降低交易成本
- 基于LOB的衍生指标和深度学习技术,有望挖掘更高效的高频价量因子
- 结论与观点: 线性模型虽能带来改进,但能力有限,建议结合深度学习等非线性模型提升效果
[page::0,4,19]
---
二、章节深度解读
2.1 限价订单簿(LOB)的还原(章节1)
关键论点与技术细节:
- Level2行情包含两类:快照行情(每3秒或者有盘口变动即更新)和逐笔行情(以0.01秒极高频率推送成交和委托明细)[page::4]
- 逐笔委托与逐笔成交拥有统一编号,允许精确排序,重建订单簿的完整状态
- 上交所与深交所在实时数据推送的结构及内容上存在差异。上海证券交易所的逐笔数据打包推送延迟相对更高,深圳证券交易所更实时[page::4]
- 通过逐笔数据,能够分别在集合竞价与连续竞价阶段,还原更完整、更细致的盘口信息
- 集合竞价阶段:快照行情只能显示有限的虚拟成交价及部分买卖量,无法完全反映每个价位真实挂单,而通过逐笔数据能还原出多档真实挂单状态(图1)[page::5]
- 连续竞价阶段:逐笔数据还原订单簿频率显著高于快照(可达0.01秒);避免了快照延迟带来的信息滞后;可以捕捉成百上千档的价格与订单详情(图2、图3)[page::5,6]
重要数据点与意义:
- 逐笔数据最小时间粒度为0.01秒,可产生数十至上百条委托/成交信息
- 使用逐笔数据可最大程度消除快照行情的时间延迟问题
- 多档订单数据使得订单簿反映更为精准的市场流动性与深度
[page::4-6]
2.2 LOB的应用1:模拟撮合系统与TWAP策略(章节2)
关键论点:
- 高频交易频率提升是实现长期正收益的关键(大数定律);但高频会极大放大交易成本影响,回测若忽略成本评估,则策略效果大打折扣[page::0,6]
- 模拟撮合系统通过利用逐笔数据恢复委托队列和成交优先级,能更真实地估计交易成本。例如设定虚拟订单位置,判定订单是否成交(图4)[page::6,7]
- 算法交易策略中以TWAP策略为代表,分为市价单TWAP和限价单TWAP:
- 市价单TWAP:每3秒下等量市价单
- 限价单TWAP:每3秒下限价单,未成交撤单,分钟末剩余市价单成交[page::7]
- 模拟测试覆盖京东方A、中国平安及2只ETF,测算限价单TWAP与市价单TWAP在不同成交规模和时间段的表现[page::7,8]
重要数据及解读(表2):
- 当成交规模升高,限价单TWAP表现下降(日均超额收益下滑,成交胜率降低),同时强制成交比例和亏损增加
- 流动性较差时段(如开盘后第二半小时),强制成交比例显著较高,策略效果减弱
- 交易成本节省与强制成交亏损呈负相关,过多强制成交将抵消限价单优势
- 限价单TWAP策略并非总优,若未能保证限价单成交率,累积未成交订单转市价单会导致亏损[page::8]
逻辑总结:
- 逐笔数据带来的细致撮合分析潜力巨大,但现实中大额订单影响复杂难以模拟,需更复杂系统支持
- 策略改进应着重提升限价单成交概率,降低被动强制成交比例[page::0,8]
2.3 LOB的应用2:基于成交概率改进TWAP策略(章节3)
关键内容:
- 定义买卖成交概率指标:3秒内成交量最大的限价买单成交量占比,扣除卖单对应成交比例,正值表示买单更易成交,反之卖单[page::8,9]
- 利用历史买卖成交概率指导限价单或市价单决策,两者择优执行,达到降低强制成交的目的[page::9]
- 事实演示中,改进策略显著提升限价单成交概率,降低分钟末强制成交比例(图5-12)[page::9,10]

- 实际应用中,买卖成交概率是滞后指标(基于3秒内成交),需寻找预测指标辅助决策
- 基于LOB核心指标(订单簿指标与订单流指标)设计4个衍生指标:订单簿相对强弱、成交相对强弱、挂单相对强弱、撤单相对强弱(表3)[page::10,11]
- 4指标统计体现买卖双方力量对比,用以预测未来买卖成交概率[page::11]
关键数据(表4、表5):
- 表4显示4个指标与买卖成交概率的预测IC,整体效果订单簿相对强弱最优,满足统计学显著[page::11]
- 利用这些指标构建回归模型,回测中预测买卖成交概率表现一般,MAE、MSE和R-square偏低;但二分类(成交概率正负)评估准确率超过50%,京东方和证券ETF表现更佳,F-score超过65%[page::11,12]
- 基于预测值改进TWAP策略在仿真环境下基本重现基于“真实”买卖成交概率指标下的性能(图13-20)[page::12-14]

表6说明了改进策略的经济收益实证,京东方A与证券ETF带来0.3-1.4bp的成本节约,其他标的表现较弱,原因是强制成交比例下降往往伴随市价单成交比例提高及其成本[page::14]
总结:
- 朴素的线性组合限价单成交概率预测模型可带来策略性能提升
- 不同标的适用性差异明显,提示个性化模型设计重要[page::14]
2.4 LOB的应用3:挖掘高频价量因子(章节4)
核心论点:
- LOB基础指标可成为更复杂价量因子的原材料,提供多维市场微观结构观察视角[page::15]
- 以买入意愿因子为例,该指标内涵为净委买增额+净主动买成交,等价于更精细的LOB量化刻画(图21、22描绘从盘口快照和逐笔数据视角对买入意愿的还原)[page::15,16]
- 将买入意愿拆分为挂单、撤单、成交、被动净买入4个子因子,分别通过对应价位区间委托量、撤单量、成交量统计计算,形成复合因子体系[page::16-17]
关键数据(表7、8、9、10):
- 表7比较LOB和快照版本买入意愿因子选股效果(IC、IR、收益),结果几乎一致,说明指标本质相同[page::17]
- 细分因子选股能力排序:被动净买入 > 净成交 > 净挂单 > 净撤单;其中净撤单效果最差且与被动净买入相关性最高,表明等权合成待优化[page::18]
- 利用逐次正交+IC加权重构复合因子,略优于原始线性复合,IC增长微小,表明现有线性组合接近上限[page::18]
逻辑总结:
- LOB基础指标丰富,选股信号可多维提取,但线性组合能力有限
- 线性模型在高频环境解读信号有瓶颈,建议采用深度学习等非线性方法以提升因子挖掘能力,下一篇计划聚焦深度学习的应用[page::18,19]
---
三、重要图表深度解读
图1-3(第5-6页)LOB还原样例图
- 图1展示集合竞价阶段LOB快照行情与逐笔还原的差异,逐笔还原展现多档真实挂单价量,明显比快照更丰富
- 图2为连续竞价快照,仅显示10档及部分订单明细,时间间隔3秒
- 图3为连续竞价逐笔数据还原,时间间隔极短(0.01秒),订单簿层级可达数百档,包含详细挂单委托及撤单过程
- 这些图支持逐笔数据能极大提升市场微观结构的捕捉精度,适用于研发高频交易策略和因子
[page::5,6]
图4(第7页)模拟撮合示意图
- 通过虚拟订单插入卖一价委托队列,逐步模拟发生的市价单买入及卖出交易,判断虚拟委托成交流程
- 说明逐笔还原盘口有助于对订单执行优先级建模,有效估计交易成本,提升回测准确性
[page::7]
表2(第8页)限价单TWAP策略模拟结果
- 多维展示限价单TWAP策略在不同标的、成交额规模及时间段下的超额收益、胜率、强制成交比例及亏损
- 显示流动性和成交规模是影响策略表现的关键因素
- 交易成本削弱明显且负面影响与强制成交比例成正比,说明限制条件下策略调整必要
[page::8]
图5-12(第9-10页)限价单成交概率和强制成交比例对比
- 改进策略实测较简单TWAP限价单策略显著提升各标的限价成交概率,降低强制成交比例
- 体现基于买卖成交概率指标的策略改进有效
[page::9,10]
表3-5(第10-12页)LOB指标、IC相关性及预测模型精度
- 定义和列示表3的LOB基础指标及其说明,为后续预测模型构建提供工具
- 表4、5展现衍生指标与买卖成交概率IC及模型预测准确性,验证指标的预测价值和限制
[page::10-12]
图13-20(第13-14页)基于预测值改进TWAP策略效果
- 改进策略成交概率和强制成交比例显著改善,且预测值驱动下表现与真实买卖成交概率驱动策略相近,验证预测指标实际应用可能性
[page::13,14]
表6(第14页)改进TWAP策略收益与胜率
- 量化展示改进TWAP策略在绝大多数情况相较市价单和限价单TWAP策略的收益优势
- 确认经济价值并表明个股差异,强调个性化研发生态要求
[page::14]
图21-22及表7-10(第15-18页)买入意愿因子及其分解
- 动态展示买入意愿因子计算过程,基于逐笔委托和逐笔成交细节,细分挂单、撤单、成交及净被动买入量
- 对比LOB和快照版本买入意愿因子选股效果无差异,进而细化为子因子
- 分析子因子的相关性和选股效能,发现线性等权组合非最优
- 提出通过正交和IC加权优化组合,略有提升,但幅度有限,表明线性模型瓶颈
[page::15-18]
---
四、估值分析
报告未涉及具体公司估值价位或目标价,主要聚焦于交易策略和因子模型的构建与优化。其“估值”在此指策略交易成本节省和回报率提升的量化分析,而非传统意义上股票估值。
具体方法包括:
- 交易成本节省计算(超额收益)
- 交易策略胜率(优于基准的频率)
- 预测模型的统计指标(IC,MAE,MSE,R-square,分类准确率,F-score)
估值指标为定量表现,辅助策略优化,非传统财务估值方法[page::7-14]
---
五、风险因素评估
报告明确提示以下风险:
- 市场系统性风险: 市场整体波动可能导致策略失效或因子信号失准
- 模型误设风险: 回归模型、线性假设及策略设计可能简化了市场复杂性,存在误差
- 有效因子变动风险: 市场环境或结构变化可能导致因子失效或表现衰退
报告未详述具体风险缓释策略,但强调需谨慎建模并关注因子稳定性[page::0,19]
---
六、批判性视角与细微差别
- 报告采用朴素线性模型尝试揭示LOB数据价值,但多项分析均指出线性模型能力有限,表现提升有限,尤其在不同标的间效果差异大,凸显个性化和复杂模型需求
- 有关预测指标采用滞后成交数据建模,实践可用指标存在时间提前性问题,报告通过Lob指标预测改进,仍显示效果有限,实际落地挑战大
- 强调深度学习等非线性方法必要,但具体实现与效果尚未实证,未来工作展望多于成果确认
- 不同股票和ETF表现差异显著,暗示流动性和市场结构异质性带来的挑战,策略和因子不能简单通用
- 报告数据截止2021年上半年,市场结构及交易行为可能已发生变化,需注意时间效应
- 报告未具体讨论撮合系统复杂度和大订单影响,实际交易中可能面临更高不确定性
整体看,报告结构严谨,数据详实,分析逻辑清晰,但承认现阶段方案并非完美,提出后续研究方向
[page::0,14,19]
---
七、结论性综合
本报告系统介绍了沪深交易所全量且高频的逐笔委托Level2数据,阐述了如何精细还原限价订单簿(LOB),并由此挖掘算法交易策略改进与高频交易因子构建的多维应用场景。
- LOB还原能力显著提升了盘口信息的深度和频率,突破了快照行情延迟、档位受限等瓶颈,实现对订单簿的实时、全面刻画
- 基于LOB数据开发的模拟撮合系统,能更准确地模拟委托队列和成交优先级,提升了交易成本估算的准确性,有助于策略回测贴近实盘
- 通过买卖成交概率等指标指导限价单与市价单的混合策略有效降低了算法交易中的强制成交比例,节省了交易成本,尤其适用于京东方A和证券ETF等流动性相对较好的品种
- 基于LOB指标的衍生指标虽在统计意义上能预测买卖成交概率,但预测精度有限,且线性模型存在内在瓶颈,表明深度学习等非线性方法有待进一步研究应用
- 买入意愿因子由LOB基础指标线性组合拆分,验证了基于LOB提取多维微观市场特征的潜力,但现有的线性加权方式仅带来有限超额收益,强调了信号提取方式创新的重要性
- 报告整体反映出LOB数据带来的丰富市场微观结构信息和潜在应用价值,但也指出当前基于线性模型的挖掘方案存在效果限制,强调未来使用深度学习等高级工具的必要性
- 风险主要包括市场结构变化导致模型失效、模型假设简化导致误差,以及市场系统性风险等,提示策略研发需持续迭代调整
综上,海通证券研究所的此份报告为中国A股市场层面深度量化逻辑与策略研发提供了重要的实践与理论基础,助力投资者更好地利用高频精准数据提升交易执行质量和因子研究效率[page::0-20]。
---
全文近2500字深入解读,涵盖关键理论、数据及图表,确保内容全面专业,适合机构投资者及量化研究人员参考。