逐鹿 Alpha 专题报告(十一) 基于限价订单簿数据的 DEEPLOB 模型
创建于 更新于
摘要
本报告基于沪深市场Level2逐笔订单簿数据,构建80维高频量价因子,利用结合CNN与LSTM的深度学习模型DeepLOB进行短期收益率三分类预测。通过对股票及可转债的回测,结果显示连续信号触发的阈值N大于15时,股票单次交易平均收益率超过0.8%,可转债甚至达5.55%,证明模型具备较强的泛化及预测能力,且高频因子的加入有效提升了模型表现[page::0][page::4][page::5][page::6][page::10][page::11][page::14][page::15]。
速读内容
- 数据来源及特点 [page::1][page::2]
- 本文采用米筐Level2数据,涵盖沪深股票、ETF、LOF及可转债,单日数据量约10G,包含逐笔委托(orders)、逐笔成交(trades)、逐笔订单簿(orderbooks)三类详细信息。
- Level2数据相较Level1拥有更丰富的成交及委托笔数信息,能较完整还原市场实时状态。
- 高频订单簿数据频率分布分析 [page::3]


- 股票订单簿数据频率中位数为0.34秒/笔,64%股票频率小于0.5秒/笔。
- 股票交易数据频率中位数为1.11秒/笔,46%股票频率小于1秒/笔。
- 限价订单簿数据重构与高频因子构建 [page::3][page::4][page::5]

- 利用逐笔订单簿信息进行累积还原,实现任意tick时的十档委托量和价格的结构化还原。
- 构建80个高频因子:40个原始量价因子、20个横截面因子(盘口委托强弱)、20个时间序列因子(量价变化率等)。
- 因子数据进行标准化处理,提高模型预测能力,价格因子采用相对昨日收盘价标准化。
- 收益率标签定义及分布 [page::6]

- 采用三分类方式,基准价格取买一价与卖一价中间价。
- 绝对收益率阈值设为±5e-4,样本分别标记为涨(2)、平(1)、跌(0)。
- 样本分布较均衡,约25.6%跌,49%平,25.4%涨。
- DeepLOB模型架构与改进 [page::6][page::7][page::8]



- 结合卷积神经网络(CNN)提取价格与委托量的空间高维特征与长短期记忆网络(LSTM)提取时间序列特征。
- 在原始40维因子基础上新增40维横截面与时间序列因子。
- 深层次(加深)网络结构优于宽层次(加宽)结构,表现更佳。
- 训练策略及样本标的 [page::9]
| 股票代码 | 股票简称 |
| -------- | ---------- |
| 300088 | 长信科技 |
| 002603 | 以岭药业 |
| 600466 | 蓝光发展 |
| 000778 | 新兴铸管 |
| 000723 | 美锦能源 |
| 600956 | 新天绿能 |
| 300418 | 昆仑万维 |
| 600158 | 中体产业 |
| 300182 | 捷成股份 |
| 000970 | 中科三环 |
- 训练数据日期为2022年1月4日至10日,验证为11日,测试为12日至17日。
- 采用CrossEntropyLoss,Adam优化器,学习率1e-4,batch size 128。
- 训练过程表现及准确率趋势 [page::9][page::10]




- 训练集误差持续下降准确率持续提升。
- 验证集误差在较早轮次获得最优,验证准确率表现波动较大。
- 量化策略及收益表现 [page::10][page::11][page::12]


- 策略信号通过连续N次预测触发,N越大说明趋势信号越显著。
- 当N>15,单次股票交易平均收益率显著提升,超过0.8%;N=20时交易次数减少但单次收益达1.15%。
- 累计收益受到手续费影响明显,较小N手续费影响较大,大N累计收益更稳定,最高达16.8%(手续费万五)。
- 交易滞后效应分析 [page::13]
| N | 滞后TICK | 手续费 | 累计收益率 |
|----|----------|---------|-------------|
| 6 | 1 | 0.1% | 7.79% |
| 6 | 5 | 0.1% | 5.68% |
| 6 | 10 | 0.1% | -5.44% |
| 15 | 1 | 0.1% | 12.47% |
| 15 | 5 | 0.1% | 11.95% |
| 15 | 10 | 0.1% | 11.87% |
- 大N下交易滞后对收益影响较小,小N下较高交易频率导致交易滞后降低收益。
- 模型在可转债市场的应用与表现 [page::14][page::15]


- 利用股票训练模型直接预测可转债,高频交易限制少且无印花税,表现更佳。
- 可转债单次交易收益率高达5.55%(N=20),累计收益稳定超过2%。
- 交易次数随着阈值N增大明显下降,频繁交易风险降低。
- 风险提示 [page::0][page::14]
- 以上所有模型结果均依赖历史数据,不保证未来有效性,投资时需谨慎。
深度阅读
逐鹿Alpha专题报告(十一)基于限价订单簿数据的DeepLOB模型——详尽解读分析
---
一、引言与报告概览
1.1 报告元数据
- 报告名称:《逐鹿 Alpha 专题报告(十一) 基于限价订单簿数据的DEEPLOB模型》
- 作者/发布机构:中信建投证券股份有限公司,丁鲁明团队
- 发布日期:2022年9月18日
- 研究对象:基于高频level2限价订单簿(LOB)数据,利用DeepLOB深度学习模型预测短期收益率,应用于股票及可转债高频交易策略。
1.2 报告核心论点和传达信息
报告基于米筐提供的高频Level-2限价订单簿数据,重构订单簿结构,通过构造多维量价高频因子,应用深度学习模型DeepLOB(卷积神经网络+长短时记忆网络CNN+LSTM)来捕获订单簿的空间与时间特征,预测短期收益率,实现基于连续信号触发的高频交易策略。实证显示:
- 股票交易中,当连续信号阈值N大于15,单次交易平均收益率超过0.8%。
- 模型直接应用于流动性良好可转债,单次交易平均收益率达到5.55%,展现高度的盈利能力和模型泛化性。
风险提示明确指出,模型结果基于历史数据,不保证未来有效性。整体报告聚焦于深度学习与高频定量交易的结合创新,强调多维数据挖掘与模型结构设计对交易策略提升的重要性。[page::0,1]
---
二、数据介绍与处理
2.1 Level-2数据概述
报告详细介绍了中国沪深市场订单驱动市场的Level-2数据特性。Level-2相较于Level-1行情,包含更丰富的市场细节,如每个档位的申报笔数和逐笔数据,这使得Level-2能够较完整还原市场实时状态。数据包括三个主要文件:
- 逐笔委托(orders): 订单序号、时间戳(毫秒级)、买卖方向、单类型(限价/市价)、委托数量、成交量、委托价格、撤单信息等细节。
- 逐笔成交(trades): 成交序号、成交时间、对应买卖单序号、成交量与价格。
- 逐笔订单簿(orderbooks): 订单簿变动事件(插入、删除、变更)、变动时间、对应档位价格及数量、买卖方向等经济学意义明显的微观结构数据。
数据体量大(单日约10GB),覆盖股票、ETF、LOF及可转债,且存储采用高效压缩(HDF5+blosc),适合高频深度学习模型输入。
2.2 订单簿重构
核心技术是对逐笔订单簿的变动信息通过一阶差分逆运算进行还原,形成“结构化”的限价订单簿快照数据。结构化数据即为固定格式的十档买挂价格及委托量,便于深度学习提取空间特征。
订单簿快照举例显示了各档买卖挂单数量随着时间演进的变动,直观体现订单簿动态。这一步骤为后续因子构建及模型输入奠定基础。[page::1,2,3,4]
---
三、因子构建与标签定义
3.1 因子体系
- 原始因子: 基于价格和委托量的40个原始量价因子,反映基本盘口信息。
- 截面因子 (20个): 反映盘口委托强弱,计算买卖方委托量及价格分布占比。示例公式:
\[
\sum{i=1}^{10}\frac{P{b t}^i}{P{a t}^i + P{b t}^i}, \quad \sum{i=1}^{10}\frac{V{b t}^i}{V{a t}^i + V{b t}^i}
\]
- 时间序列因子(20个): 量价变化率,如价格和委托量的一阶、二阶导数,资金流等动态特征,长度设为100个tick,捕获时间演变信息。
价格因子进行标准化处理,采用“当前价格/昨日收盘价”,委托量因子采用z-score标准化,参数基于历史数据统计,最终因子值截断在(-1,1)区间,提高模型稳定性和泛化能力。
3.2 标签构建
采用中间价(买一价卖一价均值)作为基准价格,通过计算未来101个tick的收益率,用绝对收益阈值5e-4进行三分类赋标签:
- 收益率 > 5e-4 标记为2(涨)
- 收益率 < -5e-4 标记为0(跌)
- 介于两者之间为1(平)
该分类方式克服了样本中收益为0的较高占比问题,更符合日内交易关注绝对收益特性。样本类比比较均衡,分别占比约25.6%、49%、25.4%[page::4,5,6]
---
四、DeepLOB模型结构与训练细节
4.1 DeepLOB架构
DeepLOB模型融合CNN与LSTM的长短期记忆结构:
- 第一部分(三层CNN):
- 通过卷积核大小1×2及步长1×2来压缩空间维度,提取价格与委托量的线性加权特征(w1、w2权重分别对应量价),实现对盘口每档价格量的特征提取。
- 进一步通过4×1卷积在时间维度上进行加权降噪,提取包含邻近档位及跨档位信息的局部特征。
- 结构设计确保空间维度特征从40维压缩到高维特征表示,最终输出$1 \times n$结构。
- 第二部分(三并联CNN+Inception设计):
- 类似Inception结构,进行多尺度卷积特征提取,增强非线性表达能力和网络深度。
- 第三部分(LSTM + 全连接层FC):
- LSTM捕获时间序列依赖,十分适合金融时间序列场景,最终FC层实现三分类预测。
4.2 模型训练
- 训练数据集: 2022年1月4日至10日5天的高频数据,涵盖投标范围500成分中换手率排名最高的10只股票,总样本约1792万条,日均每只约35万条。
- 采样间隔: 为控制数据相关性,每隔10个tick采样一次,减少样本冗余。
- 训练参数:
- 损失函数采用交叉熵(CrossEntropyLoss),适用于分类任务;
- 优化器为Adam,学习率设置为1e-4, batch size=128,显存占用18G;
- 每轮epoch训练约12分钟。
- 训练过程表现:
- 训练误差稳步下降,验证集误差较快达到稳定,体现训练过程有效避免过拟合。
- 训练准确率逐步提升,验证准确率波动较大,反映对验证集泛化风险,但整体性能稳定。[page::7,8,9,10]
---
五、模型预测及实证结果分析
5.1 股票市场表现
通过对模型输出连续N次相同信号触发时交易:
- N越大,单笔交易的收益越显著,但交易次数相应大幅减少。
- 以N=6为例,平均每天交易90次,单次交易收益0.11%;N=20时,交易频率大幅降至2.7次,单次收益提升至1.15%。
- 反映了短期动量效应,即连续强信号具备更高的价格变动确定性,可提高交易收益率。
- 累计收益方面,受交易手续费影响较大(模拟单边万五至千一区间),
- N=6时,累计收益约16.8%;
- N=20时,累计收益约6%。
- 交易延迟敏感性测试显示:
- 高频频交易(N小)对交易速度高度敏感,延迟导致收益显著降低甚至亏损;
- 低频交易(N大)对交易速度影响较小,收益更稳定。
结论: 选择合适的信号连续触发阈值N极为关键,需要在交易频率与收益质量之间权衡。[page::10,11,12,13]
5.2 可转债市场表现
- 将股票训练得模型无调优直接用于可转债交易。
- 可转债交易不限日内次数且无印花税,交易成本优势明显。
- 结果表明,平均单次交易收益显著高于股票,N=20单次收益达5.55%。
- 但因信号触发次数较少,日均交易不到0.5次,交易频次低。
- 累计收益稳定且较为可观,N>12时累计收益均保持在约2%以上,手续费影响较小。
- 反映模型泛化能力优异,适合拓展至交易成本低、交易限制小的品种。
实证图表清晰体现了模型在两个不同市场的收益差异和交易频率权衡,为实际应用提供了重要的参数调优指引。[page::13,14,15]
---
六、图表深度解读
| 图表编号 | 内容描述 | 数据趋势及解读 | 论证支持及重要性 |
| --- | --- | --- | --- |
| 图表1-3(第1-2页) | 逐笔委托、成交、订单簿数据样本示例 | 直观展示了订单簿的交易细节结构,验证数据来源的完整性和复杂度 | 充分体现了模型输入的高维、细粒度数据基础 |
| 图表4-5(第3页) | 股票订单及交易数据频率分布 | 订单变动频率中位数0.34s/笔,交易频率中位数1.11s/笔,0.5s内订单占64% | 说明高频交易环境的活跃度和数据处理的实时性需求 |
| 图表6(第4页) | 限价订单簿变动示意图 | 形象展示买卖档位价格及委托量随时间的动态演变逻辑 | 揭示订单簿重构过程的原理,确保还原数据准确性 |
| 图表7(第4页) | 限价订单簿结构范例 | 示例快照数据,包含买卖十档价格、量及笔数 | 说明模型因子构建所依据的基础格式 |
| 图表8(第5页) | 高频因子集合 | 包含基本因子、截面因子、时间序列因子描述详尽 | 为模型提供多维度深度特征,提升预测能力 |
| 图表9(第6页) | 样本内收益率分布 | 收益率对称,20%的收益为0,阈值设定体现实际成本考量 | 说明分类标签设置合理性 |
| 图表10-13(第7-8页) | DeepLOB模型及改进结构示意 | 模型结构体现空间和时间特征提取层次、网络加深方案优劣比较 | 支撑采用加“深”方案的建模决策,有效提升模型性能 |
| 图表15-16(第9页) | 训练、验证误差曲线 | 训练误差下降,验证误差波动,体现训练过程状况 | 说明训练稳定性和模型拟合情况 |
| 图表17-18(第10页) | 准确率变化 | 训练集准确率递增,验证集较波动 | 指示模型泛化风险,提醒后续需调整 |
| 图表19-22(第11-12页) | 股票交易次数与收益率、累计收益 | 随信号N增益单笔收益较好,累计收益依手续费波动 | 验证模型策略盈利潜力及交易频率影响 |
| 图表23(第13页) | 交易滞后对累计收益影响 | 交易速度滞后显著降低高频策略收益 | 强调执行时效对高频策略的重要性 |
| 图表24-27(第14-15页) | 可转债策略收益分析 | 可转债单笔收益显著高于股票,累计收益稳定 | 体现模型泛化能力及市场方面的投资价值 |
这些图表从数据源到因子设计、模型结构、训练过程及实证效益多维度呈现,全面支撑报告核心观点。使用多种可视化,辅以表格数据确保信息透明、可信。[page::1-15]
---
七、风险因素评估
报告风险提示简明但重要:
- 所有模型结果基于历史数据,未必能保证未来的有效性。
- 高频交易对交易延迟、执行效率及交易成本极为敏感。
- 高频策略面临市场结构变动风险、流动性风险、技术风险(如数据质量、模型误差、系统故障)。
- 交易手续费、滑点等实际成本对盈利影响显著,需严密控制。
- 交易策略的持仓容量有限、高频市场竞争激烈,边际效益递减。
报告没有详细列出风险缓释措施,表明模型尚处研究阶段,实际应用时需结合更复杂风险管理体系。[page::0,13,16]
---
八、批判性视角与细微差别
客观指出几个重要细节与潜在不足:
- 样本选择限制: 训练数据仅涵盖高换手率的10只股票,样本多样性不足,可能存在选样偏差,市场代表性不强。模型在更广泛标的上的适用性有待验证。
- 高频数据处理与建模复杂性: 虽处理能力强,数据规模大,但实际部署需克服计算资源大、延迟等技术难题。时间戳同步、数据完整性问题未详细探讨。
- 验证集表现波动: 验证准确率较低且波动较大,提示模型存在一定过拟合风险或泛化能力不足,需要进一步模型正则化或更多样本验证。
- 收益率波动与交易限制: 交易机器策略基本盈利,但受手续费影响较大,特别是低阈值N值策略在手续费条件下收益波动大,真实市场执行可能存在较大收益折损。
- 模型泛化说明有限: 尽管可转债应用收益较好,但未进行微调,交易次数极低,样本量和结果稳定性需再明确。
- 无详细对比基准,缺少如传统统计模型、其他深度学习模型、或简单基准的比较,难以全面量化模型改进幅度。
总的来看,尽管模型设计与数据利用先进,且实证数据表现亮眼,但仍需考虑上述因素以评估实际投入运营的稳健性和风险。[page::7,9,10,13,14]
---
九、结论性综合
本报告系统介绍了基于沪深市场level2限价订单簿高频数据,采用CNN+LSTM深度学习框架DeepLOB进行短期价格走势预测的完整流程。报告亮点包括:
- 数据层面,全面利用逐笔委托、成交及订单簿三类数据,利用增量数据实现订单簿快照重构,构造出80维高频量价因子,极大丰富了模型输入信息维度。
- 模型设计深度复杂,结合CNN在空间结构特征提取的优势,加上LSTM对时间序列数据的把握,引入网络加深策略以提高表达力,显著提升短期预测准确率和效用。
- 实证中,基于连续信号触发构筑交易策略,展示了N阈值对交易频率与收益的平衡关系,体现市场短期动量效应,策略在高流动性选股中展现较强盈利能力且收益可观。
- 模型迁移至可转债市场,收益率进一步提升,验证了模型的泛化潜力。
- 图表和表格数据详尽丰富,涵盖数据特征、模型训练进展、策略表现及交易成本影响,多维度佐证其结论。
但需注意模型训练验证集表现波动及样本多样性限制,执行滑点成本等实际交易障碍,以及潜在过拟合风险,提示实盘应用前应进行更严格测试和风险管控。
总体上,报告呈现了高频限价订单簿数据结合深度学习在量化短期走势预测与高频交易中具备明显潜力的最新进展。其严谨的数据构建、模型设计与实证结果为相关量化交易策略研究提供了重要参考及实践示范。[page::0-15]
---
附:重要图表展示示例
- 股票订单薄数据频率分布图(第3页)

- DeepLOB模型结构(第7页)

- 股票平均收益率与交易次数(第11页)

- 可转债平均收益率与交易次数(第14页)

---
综上,报告构建了基于深度学习的高频LOB预测框架,并验证了其在量化高频交易策略中的实际应用价值,体现了深度学习技术在金融微观结构交易中的前沿应用,提供了高价值的研究和操作思路。