`

“逐鹿”Alpha 专题报告 (十一)基于限价订单簿数据的 DEEPLOB 模型

创建于 更新于

摘要

本报告基于米筐提供的沪深市场Level2限价订单簿数据,构建80维高频量价因子,采用结合CNN与LSTM的深度学习模型DeepLOB预测短期收益率。通过样本内训练和样本外测试,模型在股票交易当中实现单次平均收益超过0.8%,在可转债交易中收益高达5.55%,展示了较强泛化能力和显著的交易收益效果。实验验证了高频深度学习模型在日内高频交易上的应用潜力 [page::0][page::2][page::7][page::9][page::14][page::15][page::18][page::20]

速读内容


高频层面订单簿数据简介与处理 [page::2][page::4][page::5]

  • 本文使用沪深市场Level2限价订单簿数据,数据量大且包含逐笔委托、交易和订单簿事件,能够还原任意时刻订单簿截面。

- 订单簿变动数据通过累计还原方式构造出固定格式的10档买卖挂单价格及委托量结构,方便深度学习模型输入。
  • 股票每日订单簿和交易频率差异大,中位数分别为0.34秒和1.11秒,60%以上股票订单簿和交易间隔低于0.5秒和1秒。




高频因子构建与样本标签划分 [page::7][page::8][page::9]

  • 构建80个因子,包括40个原始量价因子、20个截面委托强弱因子、20个时间序列变化率因子,价格采用当前价与昨日收盘价归一化,委托量采用前日均值标准差Z-score标准化。

- 标签为三分类:涨(2)、平(1)、跌(0),使用绝对收益阈值5e-4划分,比采用相对标签更符合高频交易的绝对收益需求。
  • 样本收益率分布对称且0收益样本占比约20%,0/1/2样本比例相对均衡。



DeepLOB模型结构及训练 [page::10][page::11][page::12][page::13][page::14]

  • 模型由三层CNN提取空间特征并压缩,三个并联CNN通过不同卷积核提取多维空间信息,后接LSTM捕获时间序列依赖,最后全连接层输出预测结果。

- 文章采用加“深”网络结构提升模型表现,训练数据选取流动性较好股票的订单簿,batch size 128,学习率1e-4,Adam优化,每轮约12分钟。
  • 训练及验证误差曲线表明模型收敛良好,训练集准确率逐渐提升至约63%,验证集准确率约45%。






模型预测与交易表现:股票收益分析 [page::14][page::15][page::16][page::17][page::20]

  • 利用样本内训练模型对样本外10只高流动性股票进行预测,设定连续信号触发门槛N进行实盘模拟交易。

- 当N>15时,单次交易平均收益率超过0.8%,N=20时交易次数较少但收益可达1.15%,显示日内短期动量效应。
  • 累计收益率受手续费影响,较小N值下交易成本较大,N=6时手续费后累计收益达16.8%,N>15时累计收益约6%。

- 交易延迟影响显著,交易速度慢影响频繁交易策略效果,N较大时影响减弱。

| 信号触发 | 交易次数 | 单次平均收益 |
|---------|----------|--------------|
| 6 | 90.0 | 0.11% |
| 20 | 2.7 | 1.15% |
  • 交易滞后和手续费影响详见下面表格,N较小时收益大幅波动。


| N值 | 滞后TICK | 手续费 | 累计收益率 |
|-----|----------|--------|-------------|
| 6 | 1 | 0.1% | 7.79% |
| 6 | 5 | 0.1% | 5.68% |
| 6 | 10 | 0.1% | -5.44% |
| 20 | 1 | 0.1% | 5.87% |
| 20 | 5 | 0.1% | 5.79% |
| 20 | 10 | 0.1% | 5.79% |

可转债收益验证及模型泛化 [page::17][page::18][page::19][page::20]

  • 将股票训练模型直接应用于换手率最高的10只可转债预测,单次交易收益显著高于股票,N=20时达5.55%。

- 由于可转债无印花税限制且日内交易不限频,模型累计收益率稳定,多数组合N>12时累计收益率维持在2%以上。
  • 模型显示良好的跨品种泛化能力,适合在可转债高频交易中应用。



| 信号触发 | 交易次数 | 单次平均收益 |
|---------|----------|--------------|
| 6 | 112.6 | -0.01% |
| 20 | 0.4 | 5.55% |

深度阅读

证券研究报告解析——“逐鹿”Alpha专题报告(十一):基于限价订单簿数据的DeepLOB模型



---

一、元数据与报告概览


  • 报告标题:“逐鹿”Alpha专题报告(十一)基于限价订单簿数据的DeepLOB模型

- 作者及联系方式:丁鲁明(中信建投证券金融工程研究团队执行总经理,联系邮箱:dingluming@csc.com.cn)及研究助理王超(wangchaodcq@csc.com.cn)
  • 发布机构:中信建投证券股份有限公司金融工程团队

- 发布日期:2022年9月18日
  • 主题:运用深度学习模型DeepLOB基于沪深市场Level2高频限价订单簿数据,预测短期收益率,进行股票及可转债交易策略的研究。

- 核心论点和目标:报告针对高频量化交易中,通过深度学习模型DeepLOB挖掘Level2限价订单簿(LOB)数据的时空特征,提升短期收益率预测准确性,基于连续信号触发进行交易。实验结果显示,在股票市场,信号触发次数参数N大于15时,单次交易平均收益率超0.8%;应用于可转债时,收益率最高达5.55%,证明模型具备显著的经济价值及一定的泛化能力。报告重点强调模型来源于历史数据,不保证未来有效性。

---

二、章节逐段深读与剖析



1. 简介与数据介绍



报告首先介绍了高频交易的定义及特点,指出其策略容量有限、对计算机基础要求高。市场根据交易机制分为价格驱动和订单驱动两类,沪深股市属于订单驱动市场,其Level2行情数据具备逐笔委托、成交及订单簿变动信息,数据粒度高、容量大(单日数据约10GB)。这些数据允许研究者通过逐笔订单簿数据的变化还原不同时间点的十档限价订单簿结构,进而提取特征因子供模型学习[page::0,2,3,4]。

2. 因子构建



基于重构出的订单簿数据,因子分为三大类:
  • 40个原始量价因子(买卖五档价格和数量等)

- 20个截面类委托强弱因子(盘口委托量和价格的买卖双方比例)
  • 20个时间序列类变化率因子(委托量价的变化率、导数指标等)


因子数据价格部分采用当前价格除以昨日收盘价标准化,买卖委托量采用z-score标准化,且所有标准化统计量均基于历史信息,因子数共80;标签构造为三分类任务,依据成交后未来101个tick中间价收益率,按照阈值±5e-4(对应交易成本)区分涨/跌/平三类,样本比例相对均衡[page::0,7,8]。

3. 模型介绍



DeepLOB模型由三层卷积神经网络(CNN)提取空间特征,再通过长短期记忆网络(LSTM)捕捉时间序列关系,充分挖掘LOB数据的时空信息。模型原始结构输入为40维特征,经过3层CNN后降维抽取高维特征。报告设计了“加深”和“加宽”两种网络拓展方式,实验结果表明“加深”效果更佳。最终模型包含三个并联CNN分支(类似Inception结构)加LSTM,后续全连接输出价格运动三分类预测结果[page::0,9,10,11,12]。

4. 模型训练



使用2022年1月4日至10日共5天数据作为训练集,1月11日作为验证集,1月12日至17日作为测试集。训练股票选择样本内流动性最好的10只,样本总量约1800万条,数据以每10个tick采样以避免样本冗余。损失函数采用交叉熵,优化器为Adam,学习率1e-4,批量大小128,每轮耗时约12分钟。训练曲线显示训练误差逐步下降,验证集误差在一定时间后达到最优,具有较好的训练与防过拟合平衡[page::12,13,14]。

5. 训练结果与实证分析


  • 股票收益率:模型应用于样本外测试,设置连续N次预测一致信号为交易触发机制,N值影响交易频率和收益。N=6时交易频率高达90次/天,单次平均收益率0.11%;N=20时交易频率降低至每日2.7次,单次收益升至1.15%。收益率随N值增长呈单调趋势,反映趋势性信号更显著时交易效果更佳,体现了短期动量效应。此外,在考虑不同手续费水平后,N大于15时累计收益较稳定且手续费影响较小[page::14,15,16,17]。
  • 交易滞后影响:考虑下单执行延迟,延迟tick数对收益率有显著负面影响,尤其在低N值时更为突出,提示高频交易的时间敏感性及高速执行需求[page::17]。
  • 可转债收益率:模型直接迁移应用于同样选取的换手率最高10只可转债,结果显示单次交易收益率远超股票,N=20时达到5.55%。可转债交易不收印花税且无日内额度限制,因而累计收益表现更优,且模型表现出良好的泛化能力,适用于可转债高频交易场景[page::17,18,19]。


6. 结果总结



报告最后强调,基于深度学习的LOB微结构信息提取,有效提升了股票及可转债的短期价格走势预测能力,实证结果证实了深度神经网络模型在高频交易中的潜力及其盈利能力,特别在触发信号参数N超过15时表现最佳。风险在于模型结果基于历史数据,不保证未来表现,需审慎应用[page::20]。

---

三、图表深度解读



图表0(第0页):市场表现图–上证指数与国债指数对比



该图显示2016年6月至2017年5月期间,上证指数(红线)和国债指数(蓝线)走势。上证指数波动较大,整体呈上涨趋势,波峰在2016年底及2017年初,多次冲击并维持于9%-14%区间;国债指数走势稳健,体现固定收益类资产的低波动特性。此对比体现股市短期波动性与收益潜力,突出股票市场高频交易盈利的空间[page::0]。

图表1至3(第3-4页):逐笔委托、成交、订单簿数据结构样例



详细呈现沪深股市订单簿中各个事件的字段内容,如时间戳、买卖方向、委托类型、数量及价格、成交信息等,展示Level2数据的高粒度和丰富性,为后续深度模型的高维特征提取提供底层数据基础[page::3,4]。

图表4-5(第4-5页):股票逐笔订单簿和交易的频率分布


  • 图4显示股票订单簿信号更新频率的分布,快于0.2秒的订单更新占比约50%,最快间隔仅为0.01秒,说明市场高频率更新特征;

- 图5显示逐笔成交的时间间隔分布,交易间隔中位数约1.11秒,且约46%的股票成交频率快于1秒,反映市场活跃度及高频交易的时间尺度[page::4,5]。

图表6-7(第6页):订单簿变动示意图及数据样表



图6以示意图明确展示订单簿买卖档位的价格及量的变化,直观体现时间 t 和 t+1限价订单簿截面的动态变化;图7则给出实际订单簿数据结构,包含买卖档位的价格和委托量等,为模型因子构建提供底层输入[page::6]。

图表8(第7页):高频因子集合示例表



表格系统梳理了原始量价因子、时间敏感和时间不敏感因子,囊括价格差、委托强弱、派生导数指标等,说明因子设计结合了统计学、经济学及市场微结构理论,用于构建有效的输入特征空间[page::7]。

图表9(第9页):收益率分布直方图



收益率分布呈对称,两端分别在最低-0.221%与最高0.225%,中间0收益率占比高达20%,表明高频样本中涨跌较为平衡且存在明显无变动的区间,支持三分类标签设计,防止过拟合极端收益[page::9]。

图表10-13(第10-12页):DeepLOB模型结构与卷积操作示意



一系列图解清晰阐释DeepLOB模型的分层结构及时间空间卷积操作原理,展示如何将高维1600+维的时序限价簿数据,通过层层卷积降维并提取抽象非线性特征,再由LSTM捕捉时序演进,支撑高效价格运动预测[page::10,11,12]。

图表14(第13页):训练股票标的列表



展示10只样本内选取的高流动性股票股票代码及简称,为模型训练对象,强调样本集中代表性和数据量丰富性[page::13]。

图表15-18(第13-14页):训练与验证损失及准确率曲线



曲线显示训练误差随着epoch持续下降且趋于平稳,验证误差在约25~35轮时最低,随后轻微回升,表明模型适度防止过拟合。训练准确率逐渐提升到约63%,验证集准确率稳定在约44%-53%区间,体现模型泛化能力较好[page::13,14]。

图表19-20(第15页):股票平均收益率与交易次数统计



条形图显示随着连续信号触发次数N增加,交易频次显著下降,但对应单次收益率呈上升趋势。从N=6交易90次,平均收益0.11%,至N=20交易2.7次,平均收益超1.15%,且N>15时收益显著,表明严格信号筛选提升收益率兼顾交易次数[page::15]。

图表21-22(第16页):股票累计收益率与手续费影响热力图及表格



热图及表格分析交易手续费不同水平对累计收益影响,显示低N交易频繁时手续费侵蚀严重,造成累计收益降低甚至负收益;高N策略手续费影响相对减弱,累计收益稳定保持在6%左右,体现策略设计需平衡交易频率和成本[page::16]。

图表23(第17页):交易执行滞后影响表



表格汇总了不同滞后tick数(1、5、10)及手续费情境下不同N值策略的累计收益率,结果突出高频交易中正确快速执行对保持正收益的重要性,滞后越多收益下降越明显,尤其低N交易频率高时影响更严重[page::17]。

图表24-25(第18页):可转债平均收益率和交易次数统计



柱状与折线图显示可转债同样随N值增加单次收益增长,N=20时单次收益率达到5.55%,交易次数显著低于股票,每只可转债每日不到一次交易,说明模型在更少交易频次下依旧实现高收益[page::18]。

图表26-27(第19页):可转债累计收益率热力图和数值表



可转债累计收益率相较股票更稳定,N>12时均可实现约2%以上的累计收益率,手续费无明显影响,强化了模型对可转债交易的适用性和收益潜力[page::19]。

---

四、估值分析



报告本身未涉及传统公司估值模型或目标价定价,而是重点在于构建和验证深度学习模型在订单簿数据上的收益预测能力与策略实证,属于量化模型应用类研究报告,因此未包含DCF、P/E等估值内容。

---

五、风险因素评估



报告中明确指出所有模型收益均基于历史数据,未来不保证有效,提示收益有不确定风险。滞后效应测试表明,交易执行延迟将严重影响盈利能力,操作风险凸显。交易手续费和交易频次之间需权衡,否则手续费可能抵消所有收益。此外,模型训练样本及测试标的有限,对市场其他股票和阶段的泛化能力存在潜在限制。报告未展开详细缓解措施建议,风险提示相对有限[page::0,17,20]。

---

六、审慎视角与细微差别


  • 潜在偏见与假设限制:模型基于2022年初约两周样本训练与测试,时间跨度较短,市场状态具有阶段性,模型在市场环境变化时可能失灵,未展现长期稳定性。

- 依赖连续信号阈值参数N:模型收益对超参数N敏感,过高或过低会导致交易效率与效益不匹配,且人为设置连续触发次数固化策略可能对快速反应不利。
  • 手续费和滑点假设:仅计入部分手续费种类,未考虑滑点、市场冲击、成交难度,实际实施或影响较大。

- 验证集准确率较低:约45%验证准确率显示预测仍有较大改进空间。
  • 模型泛化性测试有限:虽然可转债单一测试展示较好结果,但产品和市场多样性不足。

- 部分图表展示不完整:流程图和部分图片表格处有小量格式和显示瑕疵,部分数据含糊,影响直观理解。

---

七、结论性综合



本文报告基于沪深市场Level2订单簿深度数据,创新性地将深度学习网络DeepLOB模型应用于高频量价信息的短期收益率预测,通过多维因子构建和CNN-LSTM结构有效捕捉时空特征,成功预测股票及可转债短期价格运动。实证验证:
  • 通过连续信号触发筛选,模型能实现交易的实质盈利性;

- 股票市场在连续信号阈值N>15时单次交易平均收益率超0.8%,累计扣除手续费仍有6%左右正收益;
  • 模型应用于可转债收益更为显著,最高单次收益达5.55%,累计收益稳定,体现良好泛化能力;

- 高频交易依赖策略执行速度,交易滞后大幅影响收益,提示实盘中需低延迟执行环境。

总的来说,该报告表明深度学习模型在高频LOB数据分析及短期收益预测中具备显著优势,对促进行业内量化策略产品创新具有较强启示和应用价值,但依赖历史数据及特定参数,实盘操作应结合风险控制与多角度验证。

---

引用页码:
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]

---

附录:报告中部分关键图表展示示例


  • 市场表现(第0页)


  • 订单簿数据频率分布(第4页)


  • DeepLOB模型结构(第10页)


  • 股票平均收益(第15页)


  • 可转债平均收益(第18页)


  • 股票累计收益热力图(第16页)


  • 可转债累计收益热力图(第19页)



---

以上即为该金融工程专题报告的详尽剖析,力求覆盖报告全文所有重要论点、数据、图表,并结合模型、策略及实证结果给出专业的解读。

报告