订单流系列:挂单方向长期记忆性的讨论与应用
创建于 更新于
摘要
本报告以A股市场挂单方向的长期记忆性为核心,运用自相关系数、频谱分析及订单连续次数统计方法,揭示订单流的时序关联及其驱动因子是机构算法拆单行为。基于此,设计出多个长期记忆相关量化因子(LMS、MEMO、OST、订单小岛因子),并结合机器学习模型(XGBoost、LightGBM、LSTM)对因子进行特征合成,探讨市场微观结构特征及其Alpha信号演变趋势,为投资决策提供量化工具与思路 [page::0][page::9][page::13][page::17][page::18]
速读内容
- 挂单方向长期记忆性的实证特征 [page::2][page::3][page::4]



- 自相关系数和偏自相关系数证明挂单方向时间序列存在显著长期记忆性。
- A股市场大、中、小市值及微盘股均表现出此特征,但强度存在差异。
- 该长期记忆在2021年底前表现不显著,2022年后显著增强。
- 影响长期记忆性的驱动因素分析 [page::5][page::6][page::7][page::8][page::9]





- 模拟随机买卖委托序列无法产生长期记忆,长期记忆来源于订单连续性。
- 两种成因假说:羊群效应和算法拆单,经验数据更多支持算法拆单为主。
- 机构持仓比例与股东户数指标显示持仓集中度与长期记忆强度存在抛物线型关系。
- 单笔挂单金额显著降低,2022年以来拆单行为加强,与资金流Alpha衰减趋势一致。
- 连续订单金额呈渐减趋势,更符合拆单行为特征。
- 挂单方向长期记忆性量化因子开发及优化 [page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16]


- 开发三种核心因子方法:自相关系数回归法(LMS)、频谱分析法(OST)、订单连续重复次数统计法(订单小岛因子)。
- LMS因子体现长期记忆强度,ICIR接近2,中证1000中表现最佳,相关性低于传统风格因子。
- 针对LMS的拟合和稳定性问题,利用自相关系数的偏度、峰度统计量构造高维记忆_MEMO因子,提升IC至0.06,Rank ICIR超过4。
- 价优和小额委托子样本筛选能够提升因子效果,价量复合指标改进有限。
- OST因子基于对小额委托的频率谱分析,2022年后表现提升明显,多头超额收益超过10%。
- 订单小岛因子通过统计连续出现买卖委托次数开发,均值和标准差因子效果较佳。
- 各因子均体现机构拆单行为背后的Alpha特征,但难以区分买卖方向单独影响。
- 机器学习模型赋能因子合成及效果 [page::17][page::18][page::19]






- 以57个因子作为特征,分别采用XGBoost和LightGBM进行训练。
- 树模型效果在样本内表现较好,但XGBoost样本外泛化能力较弱(超额收益8.6%),LightGBM表现较优且衰减幅度较小。
- 尝试引入LSTM捕获时序依赖,原生MSE损失表现较弱,通过增加负IC绝对值惩罚改进,样本外预测收益有所提升。
- 机器学习对因子之间的共线性和模型复杂度需合理控制,避免过拟合和局部最优。
深度阅读
报告详尽分析:《订单流系列:挂单方向长期记忆性的讨论与应用》
---
1. 元数据与概览
- 报告标题:《订单流系列:挂单方向长期记忆性的讨论与应用》
- 发布机构及团队:开源证券金融工程团队,团队负责人魏建榕。
- 发布日期:2024年6月9日
- 作者:魏建榕(开源证券金融工程首席分析师)等
- 研究领域:因子研究、量化基金、市场微观结构、订单流分析、机器学习应用
- 核心主题:
- 探讨A股市场订单流中挂单方向的长期记忆性特征及其驱动因素。
- 基于长期记忆性的定量描述,设计多种选股因子(Alpha因子)。
- 应用机器学习技术对因子进行特征合成和优化。
- 研究机构“拆单”与羊群效应对挂单方向长期记忆性的影响。
- 核心结论与意图:
- 挂单方向确实存在长期记忆性,且2022年起该特征显著增强。
- 持续委托的出现主要由机构的算法拆单驱动。
- 利用自相关系数回归、傅里叶频谱分析和订单连续次数构造的因子能够捕获Alpha。
- 机器学习(树模型和LSTM)能部分提升因子表现,但要关注泛化能力和共线性问题。
- 该报告旨在揭示市场微观结构的深层次交易行为规律,指导Quant策略开发。[page::0,1]
---
2. 逐节深度解读
2.1 挂单方向长期记忆性的实证研究
2.1.1 长期记忆性的定量刻画
- 将每笔买入委托方向编码为+1,卖出委托为-1,得到时间序列{Xn}。
- 通过自相关函数(ACF)和偏自相关函数(PACF)计算序列自相关系数:
$$
\gamma{k} = Cov(Xn, X{n-k}) = \frac{1}{N-k} \sum{n=k+1}^N (xn - \bar{x})(x{n-k} - \bar{x})
$$
$$
\rhok = \gammak / \gamma0
$$
- 实证观察发现自相关系数显著大于零,说明挂单方向存在持久的时间依赖关系。不同股票之间长期记忆强度存在差异(如京东方A与五粮液自相关系数水平和衰减速率不同)(图2-4)[page::1,2,3]。
2.1.2 A股市场中的长期记忆性分布
- A股不同选股域(沪深300、国证2000、微盘股等)均存在这种长期记忆,但沪深300和微盘股的长期记忆强度相对较低(表1)。
- 长期记忆强度指标可用截距项代表,截距项与斜率高度负相关,故后续分析多用截距项来衡量强度[page::3,4]。
2.1.3 时间演变特征
- 2022年前后是长期记忆性跃迁的重要时间节点:
- 2021年底前后,挂单方向长期记忆性明显增强,截距项均值由约0.2跃升至0.4以上(图5-6)。
- 这一跃迁不仅体现在整体市场,也体现在不同股票特征(如价格分组)中表现出转向(图7-9)。
- 高价股在2018-21年更显著表现出该现象,而2022年后低价股更突出[page::4,5].
2.1.4 微观视角:交易时段、价优和订单大小对长期记忆的影响
- 交易时间段划分为集合竞价(早盘、尾盘)与连续竞价,持续竞价阶段的长期记忆性更强,尤其在2022年后显著提升(图10-11)。
- 价优委托(接近盘口价格)和小额委托对应长期记忆强度较高,反映交易更趋向快速成交而非扰乱订单簿(图12-13)[page::5,6].
2.1.5 驱动因素分析
- 简单基于价格趋势产生的随机订单流不具备长期记忆(图14);长期记忆来源于订单的连续性(“拆单”等行为)(图15)。
- 两种理论解释:
1. 羊群效应:投资者模仿群体行为导致订单方向集中。
2. 算法拆单:机构把大订单拆成多个同方向小订单,形成序列连续性。
- 经验数据支持算法拆单驱动:
- 机构持仓比例与长期记忆性呈非线性关系(图16)。
- 资金流Alpha因子收益衰减与长期记忆跃迁基本重叠,单笔挂单金额持续下降,拆单细化(图17-18)。
- 连续订单金额呈递减趋势,体现拆单特征更明显(图19)。
- 市场主流交易算法的成熟度解释拆单行为的发展和普及(图20-21)[page::6,7,8,9].
2.2 Alpha策略开发:三种计算方法与因子测试
2.2.1 自相关系数回归法
- 计算挂单方向序列1至100阶自相关系数,滞后阶的对数与自相关系数呈线性关系。
- 通过OLS回归,自相关系数截距作为长期记忆强度因子LMS。
- LMS因子2018年至2024年可获得13%多空收益,ICIR约2,相关性与传统风格因素较低,信息包含独立(图22-23,表2)。
- 不同选股域表现最好:中证1000的区分能力最优,沪深300和微盘股表现相对一般[page::10,11].
模型不足与改进
- LMS截距简单线性拟合不完全准确,改为统计模型,使用1至100阶自相关系数的偏度和峰度指标改善效果,IC提升至0.06以上(表3),对应多空净值曲线显示峰度/偏度因子优于原始LMS(图26)。
- 样本筛选优化:价优委托和小额委托样本表现优于无筛选样本(表4,图27)。
- 价量复合因子未显著提升因子表现(表5,图28)。
- 基于上述改进构造的高维记忆因子MEMO表现良好,在全市场范围年化收益约7.5%,多空收益稳健,流动性相关性合理(图29-31,表6)[page::11,12,13,14].
2.2.2 频谱分析法(傅里叶变换)
- 利用傅里叶变换将时域挂单方向序列转化为频域特征,统计频谱中强波振幅占比,再计算其峰度作为因子信号。
- 抽样仅保留小额委托50%订单以增强效果。
- OST因子2022年后显著增强,月度收益表现波动,有阶段回撤(图32-35,表7)。
- OST因子与传统风格相关性极低,捕捉独立信号(图36)[page::14,15,16].
2.2.3 订单连续重复次数统计(订单小岛)
- 统计连续出现同向订单的次数,分买入、卖出分别计算描述因子。
- 该方法直观反映订单流连续性,买入和卖出样本特征相似,难以区分买卖方向(图37-39,表8)。
- 买入/卖出均值及标准差因子表现最好,均获得超过4%的超额收益,胜率在55%以上,峰度/偏度因子表现较差[page::16,17].
2.3 机器学习方法应用
2.3.1 树模型
- 使用XGBoost和LightGBM对57个因子进行特征合成,目标预测未来20日收益。
- XGBoost样本内表现较好,超额收益显著,多头胜率高达98%;但样本外表现衰减明显,超额收益仅约8.6%,胜率降至70%(图40-41)。
- LightGBM较XGBoost稳定,样本内外分组单调性更优,泛化能力较强(图42-43)[page::17,18].
2.3.2 网络模型:LSTM
- 为捕捉长期依赖和拆单时间跨度,尝试了LSTM方法。
- 使用均方误差(MSE)损失函数时,多头收益不足,导致空头方向权重偏大。
- 通过在损失函数中增加负IC绝对值惩罚项,提升了模型的多头预测能力(图44-45)。
- 但整体看,LightGBM优于LSTM,且需注意因子间共线性与模型复杂性控制[page::18,19].
---
3. 图表深度解读
- 图2-4:展示挂单方向自相关和偏自相关函数长期不归零,确证A股订单流涨跌方向有持续时间依赖,且自相关系数衰减符合与滞后阶对数的线性关系。
- 表1:不同选股域自相关系数斜率和截距统计,揭示沪深300和微盘股长期记忆强度较低。
- 图5-6:热力图视角展示长期记忆强度随时间和市值、换手率变化,2021年底前后形成明显断点。
- 图7-9:特殊股票样本(ST、新股、涨跌停)对长期记忆性贡献较小;价高和价低股长期记忆强度阶段性转换。
- 图10-13:微观视角显示连续竞价期间的长期记忆强化,价优及小额委托更显著表现出长期记忆特征。
- 图14-15:模拟随机挂单方向序列无法产生长期记忆,实测订单连续性导致。
- 图16-19:机构持仓比例与平均持股市值与长期记忆强度呈抛物线相关;“拆单”加剧导致单笔挂单金额下降,连续订单金额体现逐笔递减趋势。
- 图20-21:示意交易算法拆单原理及层级,凸显拆单行为演变。
- 图22-23:LMS因子分组收益和相关性雷达图,表现独立于常规风格因子。
- 表2:长期记忆因子在不同股票池表现,尤其中证1000内表现显著。
- 图24-26:LMS因子月度收益及IC累计变化示意,偏度和峰度因子表现优于截距项。
- 表3-6,图27-31:展示统计模型改良、价优小额委托筛选对因子收益的提升效果,以及MEMO因子的收益稳定性和风格相关性分析。
- 图32-36,表7:傅里叶频谱因子OST的频谱特征示意及收益表现,OST在2022年后Alpha显著,且风格独立。
- 图37-39,表8:订单连续重复次数因子示范和选股效果,表明买卖方向难以区分,有效因子为均值和标准差。
- 图40-45:机器学习模型(XGBoost、LightGBM、LSTM)样本内外表现对比,样本内效果良好但外部泛化受限,LSTM损失函数修正带来提升。
整体图表支撑如下逻辑:
- 挂单方向具备长期记忆性并非偶然,是机构拆单与连续委托行为的体现。
- 时间、价格、订单规模影响长期记忆强度体现的差异。
- 统计学方法能有效捕捉长期记忆特征,构造的因子具备一定的Alpha能力。
- 高频量化策略开发中机器学习手段在特征挖掘和合成阶段表现出潜力,但模型稳定性和泛化仍属挑战。[page::2-19]
---
4. 估值分析
报告未涉及传统意义上的估值分析(如DCF、PE等)。焦点在于市场微观结构特征的统计刻画及量化因子构造,主要呈现因子信号的选股能力和机器学习模型的预测表现,没有估值数值模型。
---
5. 风险因素评估
主要风险提示如下:
- 历史回测风险:因子和模型基于历史数据,未来市场环境、微观结构、交易行为变动可能导致策略失效。
- 模型泛化能力:机器学习模型,特别是XGBoost表现出样本内外差异,过拟合带来风险。
- 数据与模型假设风险:以自相关系数和频谱分析为依据的假设可能随市场变迁失真。
- 隐性交易行为变动:算法交易模式或突变对因子有效性影响不可预期。
- 策略稳定性:部分因子收益存在阶段性回撤,需结合风险管理框架使用。[page::19]
---
6. 批判性视角与细微差别
- 报告基于自相关系数为核心量化工具,使用线性拟合可能忽略了非线性动态,虽借助统计模型进行了优化,但整体建模仍较简化。
- 尽管报告强调算法拆单为驱动因素,羊群效应被较快排除,但基于公开数据难以精确区分,结论依赖间接证据,存在一定假设风险。
- 机器学习部分,模型泛化问题明显,训练集以旧数据为主,未来表现仍有不确定性,且未展开更多新模型(如Transformer等)比较。
- 买卖方向难以区分显示该因子在微观结构信号上较为粗糙,算法拆单的“买卖对称性”限制了Alpha深层提炼空间。
- 样本筛选如价优、小额等虽然提升了因子效果,但因子设计和因变量选取仍可能存在数据偏差或样本选择偏差。
- 因子收益在2022年前表现较弱,跃迁背后具体市场机制未深入探讨,只从机构持仓视角间接说明,缺乏更丰富的行为经济学理论支持。
- 报告结论较为务实且数据支撑充分,但仍应谨慎对待Alpha因子持续有效性。后续工作可探索更多微观结构指标和模型融合方式以增强稳定性。[page::10,17,19]
---
7. 结论性综合
该报告系统地分析了A股市场订单流中挂单方向的长期记忆性特征,揭示交易行为的良好时间依赖性和结构特征。研究发现:
- 长期记忆性普遍存在且增强:自相关分析显示挂单方向序列具有显著的长期依赖性,尤以近年(2022年以来)为甚,反映市场微观结构和机构行为的重要转变。
- 主因非价格趋势,而是订单连续性:非独立随机挂单不能产生此现象,实证数据凸显机构拆单算法是主要驱动力,而散户羊群效应作用较弱。
- 选股因子开发取得初步成效:利用自相关系数回归法构建的长期记忆强度LMS因子,以及基于统计指标的MEMO因子,和频谱分析得到的OST因子均展示一定的Alpha信号,多空收益稳定且相关性低,特别是对中小市值股票分组效果显著。
- 机器学习赋能策略优化:基于LightGBM和XGBoost的树模型对因子进行组合建模,有效提升样本内预测力,但样本外泛化能力有限。长短期记忆网络(LSTM)适合提取时间序列长期依赖,损失函数设计影响显著。
- 微观结构策略挑战与机遇并存:因持续拆单行为导致的微结构特征日益细微和复杂,对因子持续有效性构成压力,但仍存在利用高阶统计特征识别Alpha的可能。
图表和实证皆明确支持机构交易连续性及其在A股微结构的显著体现,对理解市场行为、构建微观结构Alpha具备高度价值。报告通过丰富的量化指标体系和机器学习尝试,为市场参与者提供了策略开发和风险控制的新思路。
综上,报告立场谨慎且富有洞察,认为订单流挂单方向的长期记忆及其衍生的量化因子是未来Alpha开发的有力起点,但需结合机器学习技术和更深层次行为分析不断完善,对市场微观结构变化保持高度警觉和适时调整策略。[page::0-19]
---
参考图片摘要链接示例(部分)
- 图2 挂单方向的ACF和PACF显著大于零

- 图9 高价股“偏好”的转变发生在2021年底

- 图19 2024年相比2018年,连续订单金额衰减更明显

- 图26 偏度、峰度因子表现要优于LMS

- 图34 分拆痕迹OST因子2022年以来表现提升

- 图44 LSTMMSE样本外预测效果一般

(更多图表详见报告相关页码)
---
(全文完成)