`

“逐鹿”Alpha 专题报告 (十一)基于限价订单簿数据的 DEEPLOB 模型

创建于 更新于

摘要

本报告基于沪深市场Level2限价订单簿数据,构建80维高频量价因子,利用结合卷积神经网络和LSTM的DeepLOB深度学习模型,对日内短期收益率进行三分类预测。研究显示,当连续多次确认信号触发(参数N>15)时,股票交易单次平均收益率超过0.8%,且模型直接应用于可转债交易,单次收益率高达5.55%,展现出显著的收益能力和良好的泛化性[page::0][page::2][page::7][page::14][page::15][page::18][page::20]。

速读内容

  • Level2数据及订单簿重构[page::2][page::4][page::5]



- 数据涉及沪深股票、ETF、LOF及可转债,日均数据约10G。
- 订单簿变动事件详细记录每笔挂单的买卖价格、数量及档位。
- 通过累计变动数据重构结构化的十档委托价格和量数据,便于模型处理。
  • 高频因子构建与标签定义[page::7][page::8][page::9]

- 共选取80个因子,包括40个原始量价因子、20个截面类委托强弱因子及20个时间序列变化率因子。
- 价格数据采用当前价格/昨日收盘价标准化,委托量使用z-score标准化,因子值限制于[-1,1]。
- 标签采用三分类方案(涨、跌、平),绝对收益率阈值设置为±5e-4,降低因极端收益率分布带来的分类偏差。
  • DeepLOB模型结构及训练[page::10][page::11][page::12][page::13][page::14]



- 模型结合三层CNN提取空间结构特征,及LSTM提取时间序列特征,采用交叉熵损失与Adam优化器训练。
- 训练集覆盖2022年1月4-10日,验证集1月11日,测试集1月12-17日,选取流动性好的10只股票,日均约35万条数据。
- 验证集准确率在30轮训练后趋于稳定,呈现模型良好的泛化能力。

  • 股票样本外收益测试及信号参数N影响[page::14][page::15][page::16]


| 信号触发N | 交易次数(次/日/只) | 单次平均收益率 |
|----------|---------------------|--------------|
| 6 | 90 | 0.11% |
| 10 | 23.2 | 0.02% |
| 15 | 6.7 | 0.85% |
| 20 | 2.7 | 1.15% |
- N取值增大降低交易频率,但显著提高单次收益率,表现出日内短期趋势明显时获利能力较强。

- 手续费对累计收益率影响随N增大减弱,N≥15时累计收益率稳定约6%以上。
- 交易延迟对交易频率高(N较小)条件影响较大,对N大情况影响较小。
  • 模型应用于可转债及收益表现[page::17][page::18][page::19]


| 信号触发N | 交易次数(次/日/只) | 单次平均收益率 |
|----------|---------------------|--------------|
| 6 | 112.6 | -0.01% |
| 10 | 8.6 | 0.85% |
| 15 | 0.8 | 3.07% |
| 20 | 0.4 | 5.55% |
- 可转债交易不受印花税限制,更适合高频交易,交易收益率显著高于股票。

- 可转债累计收益稳定,N≥12时累计收益率可达2%左右,模型展现出良好的跨标的泛化能力。
  • 结论总结[page::20]

- 基于level2限价订单簿数据及DeepLOB深度学习架构构建的高频短线交易模型,在股票和可转债市场均可实现显著的正收益。
- 适当调整交易信号触发参数N,可权衡交易频率与单次收益。

深度阅读

证券研究报告深度分析报告


报告名称:“逐鹿”Alpha 专题报告(十一)基于限价订单簿数据的 DEEPLOB 模型
作者:丁鲁明(执行总经理、金融工程团队首席分析师)等
发布机构:中信建投证券股份有限公司
发布日期:2022年9月18日
主题:基于高频限价订单簿(LOB)数据,应用深度学习模型DeepLOB进行短期收益率预测及高频交易策略构建,涵盖沪深股票和可转债市场。

---

一、元数据与报告概览



本报告聚焦于利用深度学习技术,特别是结合了卷积神经网络(CNN)和长短期记忆网络(LSTM)的DeepLOB模型,对限价订单簿数据进行深度分析与挖掘,从而实现对短期收益率的精准预测。核心目标为验证该模型在高频交易策略中的可行性与收益表现。报告明确指出,当连续预测信号参数\( N \)大于15时,股票单次交易平均收益率超过0.8%,而模型直接应用于可转债时收益率高达5.55%,表明显著收益潜力。报告同时强调,模型均基于历史数据,未来适用性不确保[page::0,20]。

---

二、逐章节深度解读



2.1 简介



报告开篇描绘了高频交易的基本概念及其策略类型,指出高频交易依赖于计算机化且频繁的交易,且策略具备中长期收益稳定但容量有限等特点。随着深度学习在大数据模式识别上的优势显现,报告提出应用深度学习模型对量化领域尤其是高频level2订单簿数据进行分析,挖掘短期收益率预测能力的重要性[page::0,2]。

2.2 数据介绍



本报告使用了米筐提供的level2数据,涵盖沪深股票、ETF、LOF和可转债,数据量庞大(单日约10GB),包括逐笔委托(orders)、逐笔成交(trades)和逐笔订单簿(orderbooks)三种细粒度信息。逐笔委托和成交记录明细了单笔订单及成交的各种属性和时间戳,逐笔订单簿则纪录了订单簿所有变动事件,允许还原任意时刻的LOB截面数据[page::0,2,3,4]。
  • 逐笔委托数据(图表1)包含订单序列号、时间戳、买卖方向、委托类型、数量、价格等关键字段,反映单笔订单的生命周期。

- 逐笔成交数据(图表2)涵盖成交序列号、时间戳、买卖双方序号、成交数量及价格,反映实际交易发生情况。
  • 逐笔订单簿数据(图表3)详细记录订单簿变动的事件、档位、买卖价格和数量等,支持从事件驱动数据还原组合数据结构。


2.2.1 数据统计


  • 订单簿数据频率分布(图表4)表明,股票的订单簿更新频率高度不均,最高达0.01秒/笔(即124万条记录),中位数为0.34秒/笔,超过64%的股票订单簿更新频率快于0.5秒/笔,显示了市场活跃度的极大差异。

- 股票每日成交数据频率(图表5)数据显示最高成交频率为0.05秒/笔,中位数为1.11秒/笔,约46%的股票成交频率高于1秒,表明逐笔交易频率分布广泛[page::4,5]。

2.3 限价订单簿重构



对逐笔订单簿事件数据进行累计处理,采用一阶差分还原技术从事件信息重构任意时刻的完整十档买卖价格及委托量结构,实现结构化的LOB数据输送给深度学习模型。图表6形象展示订单簿档位价格和数量随时间的变动过程,图表7展示了典型的十档限价订单簿截面[page::5,6]。

---

3、因子构建



3.1 高频因子设计



构建80个高频因子用于模型训练,其中:
  • 40个为基础量价因子,包含各档价格和委托量;

- 20个为横截面类委托强弱因子,主要通过买卖盘口订单金额和委托量占比表示订单簿相对强度;
  • 20个为时间序列类量价变化率因子,代表一阶导数变动,周期为100个tick。


数据标准化采用当前价格除以昨日收盘价(价格),及z-score变换(委托量),并将因子值截断至[-1,1]区间,确保特征均衡且模型训练稳定。因子设计结合经典高频特征和创新构造,提升模型对市场微结构的映射能力[page::7,8]。

3.2 标签构建



问题设定为三分类任务——涨、跌、平。基准价格采用买一价和卖一价的中间价,计算未来101个tick的收益率。收益率阈值设为±5e-4(近似印花税费率),以此划分标签,使得样本均衡且符合实际交易成本考虑。样本内收益率呈明显对称且0收益占比约20%(收益率分布图表9)[page::8,9]。

---

4、模型介绍及训练



4.1 DeepLOB模型结构



DeepLOB结合CNN和LSTM,分三部分:
  • 第一阶段:三层CNN逐步压缩并提取订单簿的空间特征,详细图表10展示网络结构。卷积核设计兼顾价格和委托量权重,时间维度上实现加权降噪,空间维度压缩后提取高维特征表征。

- 第二阶段:三并联CNN模块(类似Inception结构),提高网络非线性表达能力。
  • 第三阶段:LSTM处理时间序列特征,捕捉时序动态,最终经过全连接层输出三分类概率。


本文新增横截面及时间序列因子,并通过“加深”网络结构(图表11)实现更深层特征挖掘,效果优于“加宽”结构(图表12)。图表13直观展示CNN如何从空间结构提取高维特征[page::9,10,11,12]。

4.2 模型训练


  • 训练集为2022年1月4-10日(5个交易日),验证集为1月11日,测试集为1月12-17日;

- 训练标的为沪深500成份股中流动性最高的10只股票(每只株日均约35万条tick数据),采用每10个tick采样一笔以防信息过度重复[图表14];
  • 损失函数采用交叉熵,优化器为Adam,学习率为1e-4,BatchSize128,显存消耗约18G,单epoch训练时间约12分钟;

- 训练与验证误差(图15、16)及准确率(图17、18)显示训练过程稳定,验证期内误差先下降后上升,防止过拟合。

---

5、训练结果及分析



5.1 股票预测收益表现


  • 采用信号连续触发次数\(N\)作为交易触发门槛,有效过滤噪音信号;

- 图表19、20显示随着\(N\)增大,单次交易的平均收益率显著提高,\(N>15\)时,收益率超过0.8%,最高可达1.15%;
  • 交易频率随\(N\)增加显著下降,保证成本控制;

- 累计收益率(图表21、22)受手续费影响较大,低\(N\)层累积收益因频繁交易被冲抵,较高\(N\)稳定性提升,手续费差异对策略影响收窄,最高累计收益率约6%[page::14,15,16];
  • 交易执行滞后(图表23)影响收益率,尤其在低\(N\)高频交易环境中更为显著,说明交易速度为策略表现重要因素[page::16]。


5.2 可转债预测收益表现


  • 直接迁移股票训练的模型,无微调应用于高流动性可转债,验证模型的泛化能力;

- 可转债交易无印花税限制,适合高频交易;
  • 图表24、25显示可转债单次交易平均收益率远高于股票,随\(N\)增大单次收益最高达5.55%,但交易次数显著下降;

- 累计收益率(图表26、27)表现稳定,\(N>12\)时均超2%,再次验证模型泛化且可实际落地[page::17,18,19]。

---

六、结论与讨论



深度学习模型DeepLOB结合高频级别的限价订单簿数据,能够有效捕捉市场微结构信息,实现高频收益率预测,尤其在控制交易信号连续触发次数(调整参数\(N\))后,模型预计收益显著。股票市场单次收益率0.8%以上,可转债甚至达5.55%,综合交易策略考虑交易成本后,仍具正向收益,尤其可转债市场更具应用潜力[page::20]。

---

三、图表深度剖析



图表0:市场表现图



显示2016年至2017年间上证指数与国债指数走势。上证指数波动显著,整体呈上升趋势;国债指数走势平稳,体现股票市场高风险高收益特征,为后文策略测试环境提供背景[page::0]。

图表4-5:订单簿和成交频率分布



订单簿更新频率极高,反映市场活跃状态;成交频率稍低但整体也表现活跃,支持高频交易策略数据基础[page::4,5]。

图表6:订单簿变动示意



用图形形象说明订单簿档位买卖价格和数量随时间发生变动,便于理解数据还原过程和特征构建[page::6]。

图表7:限价订单簿数据



示例具体订单簿截面数据,体现实际市场的盘口深度,价格、量和档位数动态分布[page::6]。

图表8:高频因子集合表



详细列举原始因子、时间敏感和时间不敏感因子的定义,是模型输入特征构建的关键依据,设计科学详尽[page::7]。

图表9:收益率分布直方图



收益率呈明显对称分布,零收益占比高,说明市场短期内受到微观波动限制,需采用分类标签处理以强化模型稳定性[page::9]。

图表10-13:DeepLOB模型结构图及特征提取



清晰展示模型多层CNN与LSTM层架构,各卷积核尺寸、步长设计针对订单簿空间和时间维度特征提取,图形化展示权重线性组合过程,体现模型设计的深度和合理性[page::10,11,12]。

图表14:训练股票列表



列示训练涉及的10只高流动性股票信息,为样本和评价结果提供基础[page::13]。

图表15-18:训练过程误差和准确率



误差下降与准确率提升反映训练阶段模型收敛情况,验证集误差波动及时泛化能力,符合深度学习常见表现[page::13,14]。

图表19-22:股票交易信号收益分析


  • 横轴为信号触发次数N,纵轴分别为交易次数和平均单次收益率。

- 随N增长,交易次数明显减少,平均收益率显著提升,体现信号筛选机制对交易效率和收益性的决定作用。
  • 累计收益率随手续费水平变化展示,手续费对高频交易策略影响重大,且高N策略更耐手续费影响[page::15,16]。


图表23:交易延迟对策略收益的影响表



列出不同N和交易延迟tick数对应手续费及累计收益率,验证执行延迟在低N频繁交易策略下极大影响策略有效性,提醒实际交易中执行速度的重要性[page::16]。

图表24-27:可转债收益率和累计收益率分析


  • 单次交易收益率和交易次数随N变化趋势类似股票,但收益率绝对值更高且更稳定。

- 累计收益率表清晰展示交易成本对可转债交易影响较股票小。
  • 模型迁移性强,有重要应用场景价值[page::18,19]。


---

四、估值分析



本报告侧重金融工程模型开发与策略表现验证,无传统标的估值分析(如DCF、市盈率等)。模型采用交叉熵损失函数训练分类模型,并未涉及估值内容。

---

五、风险因素评估



报告明确警示所有结果基于历史数据,未来有效性不保证,尤其高频市场动态变化快速,模型可能因市场结构或微观环境变化失效。此外,交易执行延迟和高频交易成本波动也是关键风险,可能会侵蚀预期收益[page::0,20]。

报告未详述具体缓解策略,但通过调节交易信号触发次数\(N\)和控制交易频率隐含风险管理措施。

---

六、批判性视角与细微差别


  1. 模型有效性的外推性不足:历史验证结果良好,但高频市场策略受技术、监管和市场结构影响大,模型预测能力能否长期保持存在不确定性,且未提供模型在更长时间段或更大样本验证结果。

2. 数据覆盖和样本偏倚:训练标的仅选取高流动性前10股票及10只可转债,可能导致模型对高流动性场景适用性强,但对中小流动股及新兴标的泛化能力待验证。
  1. 交易成本与滑点假设限制:手续费假设较为理想化,实际账户可能承担更高成本,且未充分考虑市场冲击成本及滑点,对实盘策略表现影响较大。

4. 标签收益阈值设定可能影響效果:选择固定0.05%收益率阈值作为正负标签,有利于考虑印花税,但市场波动加大时可能导致信号失真。

尽管如此,报告保持了谨慎论调,未夸大模型潜力,体现了较为严谨的研究态度。

---

七、结论性综合



本报告系统展示了深度学习在高频量化交易领域的创新应用,融合丰富的高频限价订单簿数据,构建含80维度高频因子的输入特征,设计调优了DeepLOB深度CNN-LSTM网络结构。通过对沪深市场高流动性股票与可转债的实证测试,验证了模型对短期收益率的有效预测能力。

具体成果包括:
  • 数据统计分析展现了沪深市场level2数据的复杂性与高频交易的基础动态;

- 通过精细的因子设计和严谨的数据标准化,使模型输入既具代表性又稳定;
  • DeepLOB模型架构优势明显,通过加深网络提升特征提取层级,显著提升预测性能;

- 连续信号触发次数控制实现交易策略的风险收益权衡,获得股票约0.8%-1.15%及可转债高达5.55%的单次交易收益率;
  • 综合手续费及交易执行滞后分析,充分体现实盘策略的制度约束和操作性;

- 模型展示良好的跨资产泛化能力,尤其对可转债市场表现出更为明显的应用价值。

综上,中信建投证券研究团队基于深度学习模型DeepLOB及沪深level2限价订单簿数据的探索,为高频交易策略研发提供了可行性验证和清晰框架,展示了深度学习技术在金融工程领域的应用前景。报告对风险有明确提示,具备较强的专业性与技术深度,是高频交易及量化投资相关领域的重要参考资料[page::0-22]。

---

(本文分析引用自报告原文所有图表与论点,均注明具体页码,保证内容溯源性。)

报告