订单流系列:挂单方向长期记忆性的讨论与应用
创建于 更新于
摘要
报告基于A股市场订单流数据,系统验证挂单方向存在显著的长期记忆性,揭示其驱动因素主要为算法拆单行为而非价格趋势。基于该长期记忆特征,构建多类因子如自相关系数回归、傅里叶频谱分析和连续订单计数,实证显示相关因子具备有效的Alpha分层能力。利用树模型和LSTM等机器学习方法进行特征合成,其中Light GBM表现最佳,为微观结构量化选股策略提供新路径 [page::0][page::4][page::11][page::16][page::20]
速读内容
挂单方向长期记忆性的存在与时序特征 [page::4][page::5]



- 订单挂单方向表现出强自相关性,跨多滞后阶仍显著高于零,证明存在长期记忆性。
- 自相关系数随滞后阶对数呈线性衰减,个股间水平差异明显,京东方A相关度高于五粮液。
- 该长期记忆性在不同市值与流动性分组存在差异,大票和微盘股均表现明显,但表现强弱有别[page::6]
长期记忆性形成的驱动因素分析 [page::6][page::9][page::10]




- 长期记忆非价格趋势引起,随机订单流模拟显示无记忆性,强调了委托连续性的重要性。
- 羊群效应与算法拆单为主要理论解释,实证支持算法拆单是关键因素。
- 机构持仓比例与单个投资者持股市值与长期记忆强度呈抛物线关系,表现出拆单行为的市场特征演变。
- 资金流Alpha收益的下降趋势与订单拆分行为增强时间吻合,单笔挂单金额明显下滑,说明拆单普遍化[page::11][page::16]
挂单方向长期记忆性因子的构建与测试 [page::11][page::12][page::13]


| 选股域 | IC | Rank ICIR | 多头超额 | 空头超额 | 最大回撤 | 胜率 |
|--------|-----|-----------|----------|----------|----------|------|
| 沪深300 | 0.041 | 1.397 | 5.07% | 8.17% | 52.1% | 55.41% |
| 中证500 | 0.037 | 1.791 | 2.97% | 11.35% | 44.8% | 54.05% |
| 中证1000 | 0.042 | 2.344 | 4.67% | 10.78% | 47.2% | 64.86% |
| 国证2000 | 0.040 | 1.930 | 4.03% | 8.93% | 43.1% | 55.41% |
| 微盘股 | 0.031 | 0.663 | 7.00% | 12.43% | 49.9% | 66.22% |
| 中证全指 | 0.039 | 1.962 | 2.48% | 9.38% | 43.6% | 54.05% |
- 基础因子长期记忆强度LMS通过100阶自相关系数回归截距项描述,因子表现稳定且与常规风格相关低。
- 基于统计量的偏度、峰度改进模型可提升IC至0.06,ICIR达到4以上,效果明显优于LMS。
- 选取价优、小额委托样本提升模型选股效果,价量复合信息改进效果有限[page::14][page::15][page::16]
高频订单频谱信号与订单小岛因子 [page::16][page::18][page::19]




| 因子 | IC | Rank ICIR | 多头超额 | 空头超额 | 最大回撤 | 胜率 |
|------------|-----|----------|----------|----------|---------|-------|
| 买入均值 | 0.051 | 3.678 | 4.76% | -11.92% | -42.14% | 55.41% |
| 买入标准差 | 0.052 | 3.746 | 4.96% | -13.50% | -41.81% | 56.76% |
| 卖出均值 | 0.056 | 3.524 | 7.19% | -11.86% | -38.44% | 63.51% |
| 卖出标准差 | 0.053 | 3.510 | 5.21% | -11.61% | -41.47% | 58.11% |
- 频谱分析提取订单流挂单方向信号构建OST因子,2022年以后显著增强,部分反映市场微观结构变化。
- 订单小岛方法统计连续同向订单计数,均值和标准差指标表现良好,显示拆单行为的稳定Alpha信号。
- 买卖委托的长期记忆性难以区分具体方向,表明因子更多反映机构交易模式而非单边方向[page::18][page::19]
机器学习方法在特征合成中的应用 [page::20][page::21]




- 采用XGBoost和Light GBM集成树模型进行因子特征融合,输入57个高频结构因子。
- XGBoost在样本内表现优异但泛化能力弱,样本外超额收益仅8.6%且胜率下降至70%。
- Light GBM样本外性能衰减较轻,分组单调性优于XGBoost,整体更适合该任务。
- LSTM网络引入时序依赖结构,初始MSE损失函数导致多头表现不足;加入负IC绝对值惩罚后提升明显。
- 机器学习特征合成需考虑因子共线性与模型复杂度,适当正则化避免局部最优[page::20][page::21]
深度阅读
订单流系列:挂单方向长期记忆性的讨论与应用——详尽分析报告
---
1. 元数据与概览
- 标题:订单流系列:挂单方向长期记忆性的讨论与应用
- 发布机构:开源证券研究所,金融工程研究团队
- 发布日期:2024年6月9日
- 作者团队:以魏建榕为首席分析师,张翔、傅开波、高鹏等多位分析师参与
- 主题:本报告主要围绕A股市场中订单流的“挂单方向长期记忆性”特征展开,深入探讨其定量刻画、驱动机制及相应Alpha策略开发,最终辅以机器学习模型的因子合成尝试。
核心论点及信息传递:
报告揭示了A股市场订单挂单方向具有显著的长期记忆特性,这种特征近年来显著增强,尤其是2022年后,其驱动因素主要源自机构投资者使用的算法拆单行为而非价格趋势。基于这一发现,报告进一步开发多种因子及模型,用以捕捉该行为异常的Alpha机会,同时也指出了模型面临的挑战和系统性风险。该研究定位于市场微观结构,通过高频订单数据提供投资指导和选股策略优化的基础。
---
2. 逐节深度解读
2.1 挂单方向长期记忆性的实证研究
2.1.1 长期记忆性的定量刻画
- 关键点:挂单方向的买卖标识被编码为数值序列(买入=+1,卖出=-1),采用自相关系数(ACF)、偏自相关系数(PACF)来衡量序列的自我关联强度。
- 数据支持:图1示例明示订单流中存在较强时间连续性,且本文继承学界Lillo等人的研究,用自相关系数量化长期记忆,以$\rhok$表示第k阶滞后自相关系数。
自协方差与自相关系数的计算公式为:
$$
\gammak = \frac{1}{N-k} \sum{n=k+1}^N (xn - \bar{x})(x{n-k} - \bar{x})
$$
$$
\rhok = \frac{\gammak}{\gamma0}
$$
其中$\bar{x}$为序列均值。
2.1.2 挂单方向长期记忆性在A股市场广泛存在
- 主论点:ACF与PACF均显示挂单方向自相关系数在长时间内显著非零,证明存在长期记忆特性(图2,图3)。
- 数据解读:图4中,京东方A和五粮液两只股自相关系数对数空间呈现线性衰减趋势,即$\rho_k \propto \ln(k)$,显示幂律性质,表明订单流长期有序持续。
| 选股域 | 斜率均值 | 截距均值 |
|--------|----------|----------|
| 沪深300 | -0.032 | 0.219 |
| 中证1000 | -0.035 | 0.238 |
| 微盘股 | -0.025 | 0.164 |
(见表1)截距项被用作长期记忆强度度量。
- 时间演变:长期记忆性强度在2022年之前较低,2021年底后显著跃升(图5,图6),且并非因特殊样本如ST股、新股等驱动(图7)
- 风格偏好变化:高价股对长期记忆性的贡献在2021年前后反转(图8,图9),反映机构交易风格演变。
2.1.3 微观视角:价优、小额委托更具长期记忆性
- 挂单时间段分析显示,连续竞价阶段自相关性显著加强,尤其是交易首小时(图10,图11)
- 价优委托(靠近盘口价格)和小额委托呈现更高长期记忆强度(图12,图13),表明此类订单更有可能是算法拆单和策略交易的表现。
2.1.4 长期记忆驱动因素解析
- 通过模拟独立随机订单流发现价格趋势本身无法产生高自相关(图14),因此长期记忆起因于订单连续性(图15)
- 两大理论成因:
1. 羊群效应(Herding):投资者观察群体行为跟进买卖,形成集体记忆
2. 算法拆单(Order-splitting):投资者为减少市场冲击,将大订单分解为连续小额订单执行
- 实证证据偏向算法拆单:
- 机构持仓比例与平均持股市值中等水平时长期记忆性更显著,过高时反而下降(图16)
- 资金流Alpha因子的衰落与长期记忆强度提升时间点吻合(图17)
- 近年来,单笔订单金额大幅减少(图18),连续订单金额呈现递减趋势加强拆单行为(图19)
- 图20和图21科普算法拆单机制,进一步支持拆单为主要驱动。
2.2 Alpha策略开发:因子设计与测试
本章围绕基于长期记忆性构造Alpha因子展开,涵盖三大计算方法及样本筛选:
2.2.1 自相关系数回归法(LMS因子)
- 利用1-100阶自相关系数,滞后阶取对数后线性回归,截距项LMS衡量长期记忆强度
- LMS因子回测表现:多头年化超额13%,ICIR接近2,相关性低于传统风格指标(图22,图23)
- 不同选股域表现最佳为中证1000成分股(表2)
- 2018年表现较差(图24),累计IC值显示整体信号偏弱(图25)
- 指出线性回归模型对衰减拟合能力有限,导致信号不稳定
2.2.2 模型改进:统计指标优于线性拟合
- 用1-100阶自相关系数的偏度、峰度、标准差等统计量计算因子,效果明显优于均值或回归截距(表3,图26)
- 筛选价优及小额委托样本优化效果(表4),价优、小额委托长期记忆信号更强
- 通过加入价格和数量复合因子测试效果一般(表5,图27,图28)
2.2.3 高维记忆MEMO因子
- 设计以峰度、偏度为核心的多维统计指标,侧重近半小时窗口内订单流信号(图29)
- 回测显示稳定年化收益7.5%,ICIR达5.3(图30),相关性与流动性最高为0.21(图31),说明因子风险可控
- 分域选股表现同样以中间市值股票为优(表6)
2.2.4 频谱分析(OST因子)
- 应用傅里叶变换提取订单流频域信息,选择小额订单子集作为样本,提高捕捉拆单信号的准确性
- 强波占比与自相关系数高度相关(图32,图33)
- OST因子2022年后收益明显提升(图34),回溯期内多头超额收益超过10%(表7)
- OST在传统风格因子暴露低,因子收益较为独立(图36)
- 2024年初遇小幅回撤(图35)
2.2.5 订单小岛因子
- 统计买卖订单连续出现次数(订单小岛长度)构造因子(图37,图38)
- 选股效果佳,买卖均值和标准差因子表现优异(表8)
- 买卖方向难以区分,长期记忆表现为整体交易连续性的反映(图39)
2.3 机器学习赋能:特征合成尝试
2.3.1 树模型:XGBoost与LightGBM
- 以57个原始因子为输入,预测未来20日收益
- XGBoost样本内R²约0.013,多头超额收益明显,样本外泛化差,胜率由98%降至70%(图40,41)
- LightGBM在分组单调性和样本外衰减表现优于XGBoost(图42,43)
2.3.2 深度学习:LSTM模型
- 利用LSTM捕捉长序列依赖性,原MSE损失函数训练多头收益表现不足(图44)
- 加入负IC绝对值惩罚函数明显改进结果,多头表现提升(图45)
- 建议特征间需控制共线性,避免模型过拟合和陷入局部最优。
2.4 风险提示
- 所有模型均基于过往历史数据,未来市场结构和交易行为变化可能导致模型失效。
---
3. 图表深度解读
- 图2、图3:挂单方向ACF和PACF的显著性超过零,订单方向的自相关性在多阶滞后仍持续存在,证明长期记忆性确实存在,说明投资者挂单行为存在惯性和连续性。
- 图4:以京东方A和五粮液为例,自相关系数对数滞后数呈线性衰减,京东方订单相关性比五粮液更强,确保了多样股票之间亦存差异。
- 图5、图6:市值与换手率分组展现2021年底后长期记忆交易增强,时间序列上的跃迁表明市场行为结构的根本变迁。
- 图7:ST股、涨跌停及新股并非主要贡献者,排除异常样本数据影响。
- 图8、图9:展示高价股与低价股在长期记忆贡献上的市场风格切换,反映机构交易策略调整及市场成熟度的体现。
- 图10、图11:连续竞价时间段长期记忆较强,特别是开盘首小时,强化机器交易与算法拆单的假设。
- 图12、图13:价优和小额委托在订单连续性和相关度上表现更强,暗示这些委托更符合隐蔽性交易策略。
- 图14、图15:独立随机订单无长期记忆,自相关源于订单连续性,表订单拆分及策略交易显著影响市场微观结构。
- 图16、图17:机构持仓比例与资金流Alpha变化趋势与长期记忆强度高度相关,显示机构交易行为影响深远。
- 图18、图19:单笔挂单金额逐年下降,2024年订单连续金额出现递减趋势,典型拆单特征,支撑算法拆单理论。
- 图20、图21:可视化交易员拆单流程及算法演变,说明市场订单流背后投资者交易策略的复杂性。
- 图22、图23:LMS因子多空收益不严格单调,与风格相关性偏低,表明因子价值独立于传统因子。
- 图24、图25:LMS因子收益稳定性不足,反映线性模型对动态自相关拟合能力有限。
- 图26:偏度和峰度因子均显著优于LMS,峰度揭示“尖峰厚尾”分布形态,展示异常信号。
- 图27、图28:价优和小额因子筛选显示有效增强信号,价量复合因子效力有限。
- 图29、图30、图31:MEMO因子展现出较强稳定性和收益,且风险暴露适度。
- 图32、图33:频谱分析捕捉序列周期性,自相关与强波占比高度正相关,技术指标的双重确认。
- 图34、图35、图36:OST因子2022年后表现提升,收益稳定,且与常规风格因子关联微弱,体现其独立性。
- 图37、图38:订单小岛概念及买卖委托连续重复次数分布,反映算法拆单连续性和订单韧性。
- 图39:长期记忆的买卖方向难以区分,表明因子更多反映交易行为类型而非单一方向信息。
- 图40~43:XGBoost与LightGBM模型对比,后者稳定性及泛化能力优于前者,二者均可强化多因子组合。
- 图44、图45:LSTM模型通过引入负IC惩罚项提升多空收益,表明深度学习对序列挖掘有潜力,但仍需优化。
---
4. 估值与策略效果分析
报告未涉及传统的估值模型,而以策略因子开发和回测为核心,采用以下指标:
- IC(信息系数):因子收益与预期收益的相关系数,反映因子预测能力;
- Rank ICIR:IC的稳定性指标,即IC均值与标准差之比;
- 多头/空头超额收益:相较基准指数的策略单边超额回报;
- 最大回撤和胜率:风险控制指标与策略成功概率。
因子测试覆盖多选股池,表现均衡优异,尤其高维记忆MEMO因子和OST因子显示优越的稳定性和选股能力。
---
5. 风险因素评估
- 历史数据适用性限制:所有模型和因子均依赖历史订单数据,未来可能由于市场结构或监管变化失效。
- 模型泛化风险:机器学习模型在样本外测试出现收益及胜率显著衰减,尤其是XGBoost,过拟合风险明显。
- 测序偏差与指标稳定性:部分因子如LMS表现波动较大,线性拟合分类存在失真可能。
- 买卖方向辨别难题:长期记忆性反映整体交易连续性难以剖析出买卖方向具体优势,可能限制因子直接应用价值。
---
6. 批判性视角与细微差别
- 报告对于长期记忆性起因的归因较为偏重算法拆单,虽有实证证据支持,但羊群效应及其他行为金融角度的讨论相对较少,或存在一定单因子偏好。
- 跨时间切片的因子表现差异与市场结构转变关联推断较强,但因果关系未充分论证,相关性可能受其他宏观变量影响。
- 部分因子改进尝试如价量复合因子测试效果不佳,说明订单属性之间复杂非线性关系可能难以用简单线性模型捕捉,提示未来深化建模必要。
- 机器学习模型泛化效果不佳说明特征可能不足、模型容量与样本复杂度不匹配,推荐后续结合领域知识与变量筛选优化。
- 买卖方向区分困难表明理论上长期记忆因子更多反映群体连续性,而非单一Signalling因子,可能限制其策略灵活性。
---
7. 结论性综合
本报告基于对A股市场逐笔订单数据的深度挖掘,明确揭示了订单挂单方向存在系统性的长期记忆性,即订单方向呈现出跨越订单时序的连续相关。这一点在时间上经历了较大跃迁,尤其是在2022年以后表现更为明显。
报告通过严密的统计分析及丰富的实证数据(包括ACF/PACF变化、订单拆单倾向、自相关的分布形态)显现,长期记忆的驱动主要源于机构投资者的算法拆单策略,而非简单的价格趋势驱动或散户行为。
在此基础上,报告创新性地构建了多种因子,如基于自相关系数的LMS因子,改进统计量的MEMO因子,以及频谱分析对应的OST因子,通过筛选价优和小额委托进一步提纯信号,均在多样化股票池内实现了较为稳定的Alpha收益。
机器学习模型方面,LightGBM因其泛化优异性而被推荐,而深度学习模型LSTM通过调整损失函数策略亦显示一定潜力,暗示未来非线性模型在微观结构Alpha挖掘中的应用空间。
最后,报告严谨指出长期记忆性因子并未表现出买卖方向的清晰差异,且全部模型建立在历史数据基础上,存在未来市场行为变化带来的风险。
总体而言,报告为算法交易行为在市场微观结构中的表现提供了系统定量依据,淫对A股市场订单流特征及其策略开发路径给出了全景式的剖析,对专业量化投资者和市场微观结构研究者具有高度参考价值。
---
参考引用
[page::0],[page::1],[page::3],[page::4],[page::5],[page::6],[page::7],[page::8],[page::9],[page::10],[page::11],[page::12],[page::13],[page::14],[page::15],[page::16],[page::17],[page::18],[page::19],[page::20],[page::21],[page::22],[page::23]
---
(全文完)