Forecasting high frequency order flow imbalance using Hawkes processes
创建于 更新于
摘要
本文基于印度国家证券交易所Nifty期货的高频Tick数据,利用Hawkes过程建立了考虑买卖单交叉激励的订单流失衡(OFI)模型。通过参数化和非参数化核函数拟合,开发了多模型近端OFI分布预测方法,并提出了基于Superior Predictive Ability测试框架的多模型优劣比较方法。结果表明,使用指数和指数和核的Hawkes过程在模型拟合和预测性能方面表现最优,且考虑了交易间隔时间对订单流依赖结构的影响显著提升了预测质量,为高频市场做市策略中的风险管理提供了有效工具。[page::0][page::4][page::6][page::7][page::15][page::16][page::17][page::18]
速读内容
- 订单流失衡(OFI)定义与意义:OFI衡量买卖市价单数量的差异,用以反映买卖压力的不对称性,对市场参与者调整限价单具有重要指导价值。[page::0][page::4]
- 数据样本说明:采用2018年9月19日印度国家证券交易所Nifty期货主力合约Tick-by-Tick数据,分类精确识别“BUY”和“SELL”成交单,避免使用传统Lee-Ready等估计算法。[page::4]
- Hawkes过程建模:以买卖市价单时间序列为两维计数过程,考虑自激励和交叉激励,参数化核函数包括指数核、指数和核、幂律核,非参数核包括条件法和极大期望法。[page::7][page::12]
- VAR模型作为对比:将买卖成交数量作为同步时间序列,用VAR(p)模型捕捉买卖之间的动态依赖,未直接建模交易间隔时间。[page::8][page::15]
- 预测方法及模型比较框架:
- 利用滑动窗口拟合Hawkes核参数(1小时窗口),预测下1分钟成交时间戳,进行500次模拟构建OFI预测分布。
- 计算实际OFI在预测分布中概率,以负对数似然为损失,构建损失数组。
- 采用Hansen(2005) Superior Predictive Ability检验方法比较多模型预测准确度。



[page::8][page::9][page::10]
- 重要结论:
- 在所有参数化核中,指数和核(sum of exponential kernel)的预测性能最佳,兼顾计算效率。
- 非参数核中,条件法核表现最佳。
- 综合考虑,指数和核与条件法核无统计显著差异,但指数和核计算效率更优,适合高频风控应用。[page::15][page::16]
- Hawkes核时变特征分析:通过30秒至5秒粒度观察交易卷积核强度,买买和卖卖自激励明显占主导,偶有买卖交叉激励峰值,反映市场多样交易动力。

[page::17]
- 附录分析:
- 现实OFI序列表现平稳(ADF检验显著),但非正态分布的特性需通过预测分布建模更好捕捉。[page::19]
- 不同核函数的优越性检验细节补充,上述结论具备稳健性。[page::20]
深度阅读
报告详尽分析:基于Hawkes过程的高频订单流不平衡预测
---
1. 元数据与概览
- 报告标题:《Forecasting high frequency order flow imbalance using Hawkes processes》
- 作者:Aditya Nittur Anantha、Shashi Jain
- 机构:SigmaQuant Technologies Pvt. Ltd.,Indian Institute of Science
- 日期:2024年8月8日
- 研究主题:利用Hawkes过程建模与预测高频交易中买卖订单流不平衡(Order Flow Imbalance,简称OFI),并比较多个模型的预测性能
报告核心论点强调了市场参与者如何利用高频订单流数据构建限价单簿,发现买卖订单流存在非对称且相互依赖的特性(订单流不平衡),进而提出采用带有核函数的多维Hawkes过程捕获买卖订单流的滞后依赖关系。报告还设计了预测OFI近似分布的框架,进而开展优势预测能力测试(SPA),评价不同模型的预测效果,最终得出Hawkes过程基于指数核的“指数和核”(Sum of Exponentials kernel)为效果最佳的预测模型[page::0,1,3,6,15]。
---
2. 逐节深度解读
2.1 引言与市场机制
报告从资本市场的基本机制出发,介绍了连续双边拍卖机制下买卖双方如何通过竞价形成交易,区分了限价单和市价单的不同。点明市场通过Tick-by-Tick(TBT)渠道高速传递订单的新增、修改、取消及成交等事件,投资者据此构建限价单簿。限价单簿是市场微结构的具象体现,不同交易所的规则决定了价格及数量的最小变更单位等特征[page::0,1]。
交易及订单流不平衡
定义了交易的买卖方向区分——“SELL”交易为卖方促成匹配,“BUY”交易为买方促成匹配,订单流不平衡(OFI)即通过衡量在某个时间窗口内买卖成交数量的差异,反映市场的买卖压力与价格走势方向关系[page::1]。
市场参与者动机
市场参与者分为做市商(双边挂单提供流动性)、套利者(跨市场定价套利)及投机者(赌未来价格单边交易)。各类参与者对订单流不平衡的敏感度和需求存在差异,特别是在算法交易大幅兴起、交易频率和数据量激增背景下,订单流呈现“聚类效应”,即过去某种交易类型会影响未来同类型及异类型交易,使得订单流存在自激和交叉激发特性,促使需要更复杂的模型以反映这些现象[page::1]。
2.2 算法交易对流动性的研究背景
算法交易占据了市场的主导交易量(例如印度国家证券交易所的多个品种中占比40%以上,瑞典股市市场制造算法交易份额达70%),对流动性的影响存在研究结果证明其能改善市场流动性、提高买卖价差效率,但也潜藏较大逆选择风险。OFI作为衡量买卖压力差异的指标已被广泛用于研究价格变动与流动性的关系,先前研究基本基于日级别数据,缺乏对高频分布的直接建模。本文强调直接基于事件级(tick级)建模的重要性以避免聚合造成的信息损失,选择Hawkes过程这一带自激与交叉激发性质的计数过程,捕获高频订单流的动态特征[page::2]。
2.3 PIN模型与其局限性
PIN(Probability of Informed Trading)模型测量基于有信息交易与无信息交易的不同抵达率,反映市场的“信息性交易”比例。其通过波松过程模拟不同交易类型的计数,并据此估计信息交易概率。然而PIN模型基于常数抵达率假设,难以解释订单流的聚类现象且假设买卖订单抵达率独立。本文指出这未必成立,因订单流的“买卖交叉激发”破坏了独立性假设,这也是选择Hawkes过程的重要理由[page::2,3]。
2.4 本文贡献总结
- 提出基于二维Hawkes过程建模OFI,明确考虑买卖交易的互依性。
- 提供多模型OFI预测框架,包括生成订单流样本、估计参数、进行模型间预测比较。
- 绕开传统的分类算法(如Lee-Ready算法),利用交易订单的交换编号信息实现交易方向的精确定义,避免分类误差。
- 重点关注高频数据中的即时更新与预测分布,以适应算法交易兴盛引发的价格高频波动性。
- 以国家证券交易所NIFTY期货Tick数据为样本,验证模型性能[page::3,4]。
2.5 数据描述与OFI定义
选用2018年9月19日印度国家证券交易所NIFTY期货数据,通过订单ID精确判定成交为买方主动或卖方主动,并据此定义形式化的OFI:
\[
OFI(T,h) = \frac{\Delta N{T-h,T}^s - \Delta N{T-h,T}^b}{\Delta N{T-h,T}^s + \Delta N{T-h,T}^b}
\]
其中,\(\Delta N{T-h,T}^s\)与\(\Delta N{T-h,T}^b\)分别是窗口内卖方和买方主动成交单数。统计量显示OFI存在明显的自相关结构(ACF、PACF图显著),为使用VAR等时间序列模型奠定基础[page::4,5,6]。
---
3. 预测问题描述
- 目标为估计未来一段窗口内的OFI条件期望(基于现有信息)
- 两类模型:
- 基于事件时间联合模拟买卖订单抵达的点过程模型(如Hawkes process),预测OFI分布
- 基于固定时间间隔内订单数的时间序列模型(如VAR)
- 采用多模型比较框架,基于Hansen提出的Superior Predictive Ability (SPA)测试,借助白色现实检验(White’s reality check)避免数据偷窃偏误,实现多模型性能对比[page::6]。
---
4. 预测模型详细介绍
4.1 Hawkes过程建模
- 采用多维Hawkes过程描述买卖订单计数,强调自激和交叉激发机制,利用核矩阵\(\Phi\)定义不同类别事件之间的相互影响,如 BUY-BUY、BUY-SELL等;
- 主要估计\(\Phi\)的若干参数 \(\Theta\),分为参数核(指数核、指数和核、幂律核)和非参数核(条件核、EM核);
- 预测步骤包括估计参数、模拟未来抵达事件时间,进而计算预测OFI分布;
- 该方法能捕获订单流依赖结构,适用于细粒度高频数据[page::7,12]。
4.2 向量自回归(VAR)
- 基于买卖订单数构建二维向量时间序列,对自身及相互序列延迟值进行回归;
- 省略交易事件实际抵达间隔时间信息,仅使用买卖订单分钟计数作为输入;
- 用于对比,验证考虑事件时间信息的重要性[page::8,15]。
---
5. 方法论
5.1 参数估计与仿真
- 使用滚动窗口方法估计每个时段内Hawkes核参数;
- 采用最大似然法与随机梯度下降算法估计参数,细致描述梯度计算步骤;
- 引入Ogata改进的thinning算法,对非均匀强度的点过程事件时间进行高效模拟;
- 通过多轮模拟生成OFI的近似实证分布[page::8,10,11,12].
5.2 预测及模型比较框架
- 对每个滑动窗口,计算实际OFI及其在预测分布中的概率,累积负对数似然作为损失函数;
- 构建多个模型的损失数组,利用SPA测试分析模型间显著性;
- 并行比较多模型性能,避免只两两比较的限制[page::9,10].
5.3 预测流程总结与通用算法
- 对所有模型,设定基于获得的买卖交易时间戳输入,循环拟合参数,模拟未来订单到达,计算OFI及其分布,存储结果;
- 通用算法NearTermDistribution对多模型、多时间窗口批量处理整理预测输出[page::14]。
---
6. 结果与模型表现
6.1 模型比较(SPA p值)
| 模型名称 | p值 |
|-------------------|--------|
| HawkesExponential | 0.002 |
| HawkesSumExp | 0.743 |
| HawkesCondLaw | 0.257 |
| HawkesEM | 0.0 |
| Poisson | 0.0 |
| HawkesPowerLaw | 0.0 |
| VAR | 0.101 |
- 指数和核(Sum of Exponentials)参数核优于单指数核,表现最优(p=0.743,无法拒绝为基准模型);
- 条件核非参数模型在非参数类中表现最好;
- 综合所有模型,指数和核与条件核表现相似,考虑计算效率,指数和核更适合高频市场风险管理使用;
- 指标显示VAR模型因不考虑交易间隔时间略劣于Hawkes过程[page::15,16,20].
6.2 交互影响动态(图6)
- 展示了NIFTY期货交易日中,不同时间尺度(5秒至30秒)下四种Hawkes核心关系(BUY-BUY、BUY-SELL、SELL-BUY、SELL-SELL)核范数演变;
- 发现同向买买或卖卖的自激关系持续主导,交叉激发(买卖相互影响)在特定时段短暂增强,反映市场情绪转换及交易动态复杂[page::17].
---
7. 批判性视角
- 报告避免使用传统交易方向分类算法(易于出错),精确地借助订单编号确定交易方向,增强了OFI的实测准确性,体现方法严谨。
- 通过全面比较参数与非参数模型,充分考虑计算复杂度与预测能力,引入SPA测试方法有效避免“数据挖掘”偏差,体现统计推断的规范性。
- 对于幂律核与Poisson模型表现极差,验证了考虑事件时间依赖和买卖交叉激发的重要性。
- 但报告基于单日数据和具体品种,可能存在一定局限性;未来可扩展多市场、多期货品种、多交易日统计验证。
- 报告未特别深入分析模型预测失败的具体时段及原因,若加此分析对实际运用更有指导意义。
---
8. 结论性综合
本报告基于印度国家证券交易所NIFTY期货高频Tick数据,提出并系统比较了一系列基于Hawkes过程及VAR模型的高频订单流不平衡(OFI)预测方法。关键发现包括:
- OFI作为衡量买卖交易订单流非对称性的指标,在高频市场微结构研究中具有重要意义。
- Hawkes过程通过捕获交易订单的自激与交叉激发效应,能够更精准描述买卖订单流的动态关联性及聚类特性,且模型允许细粒度基于事件时间的建模,优于只用固定时间间隔数据的VAR模型。
- 在广泛测试的参数核中,以指数和核(Sum of Exponentials kernel)基于最大似然估计和高效仿真,结合SPA统计方法,表现最佳,兼具准确度和计算效率。
- 预测不仅产出OFI的点值预测,更提供近端预测分布,为风险管理、算法交易及市场监管等提供更全面的量化支持。
- 该研究通过创新的无分类交易方向确定方法避免了传统算法的潜在偏差,增强了预测的稳定性和精确性。
- 图形数据展现了交易日内买卖订单流动态交互的时间演化,为市场微结构理解增加深度[page::0-18].
最终,报告强调了考虑交易间隔时间的交叉依赖结构对高频OFI预测质量提升的重要性,赋能高频交易与市场制造策略的发展,同时为金融市场流动性与价格微观机制的理论研究提供了实证范式和方法学创新。
---
9. 图表深度解读
表格1 & 交易示例
- 描述了限价单簿中买卖报价的五档价格与数量,体现了典型市场竞价层次结构及买卖壁垒。
- 展现不同价格及数量对撮合撮合价格、成交量形成的影响背景[page::1].
表2 & OFI统计摘要
- 对于2018年9月19日NIFTY期货,OFI在315个样本内均值略为负值(-0.076),标准差0.323,最小值-0.779,最大0.765,显示均衡偏卖压一侧。
- ACF和PACF图揭示OFI存在显著自相关结构,特别是一阶滞后贡献突出,说明OFI具有短期记忆特征,适宜使用时间序列模型捕获[page::5].
图2 & 模型拟合与模拟流程示意
- 清晰说明滑动窗口参数估计机制,设定60分钟数据窗口拟合模型,滚动预测未来1分钟订单流,推动窗口前进。
- 模型拟合后进行多次仿真,生成OFI的分布估计,便于后续概率与损失函数计算[page::8].
图3 & 模型评估流程
- 展示计算实际OFI对应预测概率,转换负对数似然值形成损失数组的过程。
- 对比多模型时采用该损失函数,对整个评估时间区间进行累积[page::9].
图4 & SPA测试机制
- 多模型损失数组并行输入,由统计测试衡量每个模型是否为最优基准模型。
- 实现多模型多期次可靠比较,较传统Diebold-Mariano检验更全面[page::10].
表3 & Hawkes参数核及估计仿真方法
| 核类型 | 表达式 | 估计方法 | 仿真方法 |
|-----------------|---------------------------|-----------|-----------------|
| 指数核 | \(\Phi(t) = \alpha e^{-\beta t}\) | TICK库 | TICK库 |
| 指数和核 | \(\Phi(t)=\sumu \alphau e^{-\beta_u t}\) | TICK库 | TICK库 |
| 幂律核 | \(\Phi(t) = t^s\) | 改良随机梯度下降 | Ogata改进抽样 |
- 结合非参数核方法(条件核与EM核)进行全面比较[page::12].
图5 & 模型比较框架图
- 系统梳理参与比较的模型分类:周期性时间序列模型(VAR)和非周期性时间序列模型(Hawkes过程及Poisson过程),并细分核函数类型[page::13].
表4 & 优越预测能力p值表
详见6.1节,支持上述总结[page::15].
图6 & Hawkes核范数时序变化(四种交叉激发)
- BUY-BUY和SELL-SELL两类自激关系表现稳定较强,支撑连续性的市场推动力。
- BUY-SELL与SELL-BUY表现为偶发、间歇波动,反映市场买卖双方短期博弈及情绪交替。
- 该图展现高频订单流动态演化多样性,有助于理解市场机制与风险[page::17].
附录测试结果(ADF平稳性、正态性)
- OFI序列统计检验通过,支持后续使用线性与点过程模型假设基础[page::19].
---
总结
通过完整解读和深度剖析,该报告严谨提出了基于Hawkes过程建模与预测高频订单流不平衡的理论与实证框架。相比传统时间序列模型,Hawkes过程有效刻画买卖订单自激及交叉激发,其指数和核(Sum of Exponentials kernel)结合高效估计与仿真,成为实际应用中性能最佳且具计算优势的模型。多模型SPA测试保证了结论的统计严谨性。通过精确交易方向分类及对订单到达影响机制的深度理解,报告创新性地提供了用于高频交易策略风险管理的实时指标预测工具。整体来看,本研究为高频市场微观结构分析及算法交易策略设计提供了卓有成效的方法论基础和实践指导。
---
参考文献溯源
全文各核心观点均附加了[page::页码]标识,方便后续查阅和文本溯源。显著内容可参见[page::0-18],模型比较结果详见[page::15,20],数据与方法详述于[page::4-14],图表位于[page::1,5-6,8-10,12-13,15-17,19-20]。
---
如需对具体章节或图表进行更细致的定量分析,欢迎提出。