订单流系列:挂单方向长期记忆性的讨论与应用
创建于 更新于
摘要
本文围绕A股市场订单流中的挂单方向长期记忆性现象开展实证研究,揭示其存在普遍性且自2022年以来显著增强;通过自相关系数回归、频谱分析及连续订单计数等方法,开发多个捕捉该特性的Alpha因子,并结合机器学习模型进行了特征合成与验证,表明算法拆单是驱动该记忆性的核心因素之一,相关因子在中证1000等中等市值股票范围表现较优,具有投资参考价值 [page::0][page::4][page::12][page::17][page::20]
速读内容
- 挂单方向长期记忆性定义与检验 [page::3][page::4]:
- 挂单买入标识为“1”,卖出标识为“-1”,构造数值序列;
- 计算自相关系数(ACF)和偏自相关系数(PACF),显示序列存在显著长期记忆,如图2所示;


- 自相关系数与滞后阶对数呈线性关系(图4),五粮液与京东方A表现差异显著。
- 长期记忆性时间与空间分布特征 [page::5][page::6][page::7][page::8]:
- 自2022年起,长期记忆性显著增强,且不同市值、流动性分组表现不同,市值500以上股票长期记忆性更强(表1);
- 高价股与低价股的记忆强度偏好由2021年底起转变(图8,图9);
- 连续竞价阶段长期记忆性显著高于集合竞价阶段,价优委托和小额委托具有更强长期记忆性(图10-13);



- 长期记忆性的驱动机理及证据 [page::8][page::9][page::10]:
- 模拟独立订单流无长期记忆,说明其非价格趋势驱动(图14);

- 主要驱动力有“羊群效应”和“算法拆单”,结合机构持仓率和股东结构,拆单行为更能解释订单流连续性(图16,17,18,19);



- Alpha因子构建及效果验证 [page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19]:
- 三类因子构造方法:自相关系数回归(LMS)、频谱分析(OST)、订单连续次数统计(订单小岛);
- LMS因子IC约0.04,ICIR约2,分组收益正向,优于传统风格相关性低(图22,23,表2);


- LMS改进:使用偏度、峰度等统计量替代线性拟合截距,显著提升IC和IR(表3,图26);
- 样本筛选优化价优、小额委托,进一步增强选股能力(表4,图27);
- 频谱因子OST表现有所提升,2022年后有效增强(图34,表7);


- 订单小岛因子均值和标准差表现良好,选股有效(表8);

- 买卖方向区分难度较大,长期记忆性表现对买卖委托无显著差异(图39)[page::19]。
- 机器学习特征合成:选择树模型和网络模型进行因子融合 [page::20][page::21]:
- XGBoost在样本内收益明显,超额约15.9%,外样本收益衰减严重,超额仅8.6%(图40,41);

- LightGBM整体性能优于XGBoost,泛化能力更好,胜率和IC表现更稳定(图42,43);

- LSTM网络模型捕捉长期拆单影响,损失函数中加入负IC惩罚后样本外表现明显提升(图44,45);

- 风险提示:模型基于历史数据,未来市场环境变化可能导致效果波动 [page::21]。
深度阅读
金融研究报告详尽深度分析报告
---
1. 元数据与概览
报告标题:订单流系列:挂单方向长期记忆性的讨论与应用
作者及团队:金融工程研究团队;核心分析师魏建榕领衔,多名分析师和研究员参与撰写。
发布机构:开源证券股份有限公司研究所
发布日期:2024年6月9日
研究主题:市场微观结构—挂单方向的长期记忆性特征及其在A股的实证规律,基于该特征开发的Alpha因子及机器学习模型的应用和表现。
核心论点与目标:
- 订单流中的挂单方向存在显著且可量化的长期记忆性,尤其在2022年及以后明显增强。
- 该长期记忆性主要由算法拆单等机构交易策略驱动,而非简单的价格趋势或散户羊群效应。
- 基于长期记忆性,开发多种因子(包括自相关系数回归法、频谱分析、连续订单计数等)捕捉Alpha信号。
- 进一步使用机器学习模型(包括XGBoost、LightGBM和LSTM)进行特征合成,提升策略效能。
- 识别模型与策略效果存在时间和样本分域差异,风险提示为模型基于历史数据,未来市场环境的变化可能影响效果。
整体来看,报告系统地分析了挂单方向长期记忆性的形成、演变、因子化与机器学习应用,展望挖掘微观结构中的Alpha机会,具有较强的实证支持与应用指引意义。[page::0,1]
---
2. 逐节深度解读
2.1 挂单方向长期记忆性的实证研究
2.1.1 长期记忆性的定量刻画及存在性
报告首先定义挂单方向序列,将买入标记为1,卖出标记为-1,构成数值序列。通过计算该序列的自相关函数(ACF)和偏自相关函数(PACF),发现挂单方向自相关系数显著大于零,即使滞后较长周期依然关联紧密(图2、图3)。
数学定义中,序列的自协方差\(\gammak\)与自相关系数\(\rhok\)详述了计算方法。观察个股如京东方A与五粮液的自相关系数随滞后阶数的对数值线性递减(图4),表现为幂律减弱,符合长期记忆过程的特点。
在不同股票指标分组(沪深300、中证500/1000等)中,长期记忆性表现均存在,但强度和持续性存在差异(表1),沪深300及微盘股长期记忆性较弱。对此,报告使用“截距项”指标衡量长期记忆强度。[page::3,4,5]
2.1.2 长期记忆性的时间演变与样本差异
时序角度,2021年底左右成为关键分水岭。通过按市值和换手率分组计算截距项热力图(图5、图6),清晰看到2022年以后挂单方向长期记忆强度明显升高,均值由约0.2升至0.4以上。
排除特殊股票样本(ST、新股、涨跌停影响),认为长期记忆非由异常状态驱动(图7)。而对高价股与低价股的长期记忆强度比较显示,早期(2018-2021)高价股优势明显,后期(2022-2024)则低价股偏好上升(图8、图9),体现市场风格从机构抱团高价股向中小市值转移,微观交易行为也呈动态变化。
微观视角揭示,连续竞价阶段的订单流长期记忆性提升显著,且价优(接近盘口价)和小额委托订单表现出更强的长期记忆(图10-13),暗示快速成交的策略订单具有更强的连贯性。[page::6,7,8]
2.1.3 长期记忆驱动因素分析
通过构造理想化随机订单流模型,发现价格趋势本身不能产生高自相关系数的订单序列(图14)。订单流自相关体现订单间连续性的特征(图15)。
两大驱动假设为:
- 羊群效应:投资者观测他人行为跟进买卖,形成群体交易趋势。
- 算法拆单:机构交易者将大额订单拆分成若干方向一致的子订单,在时间上持续下单。
结合实证数据,报告更支持算法拆单为关键原因,理由包括:
- 机构持仓比例与长期记忆强度呈倒U型(图16),持股集中度高时因配置需求导致连续性降低。
- 资金流Alpha表现与长期记忆跃迁高度重合(图17),2022年以来Alpha收益下滑伴随长期记忆强度提升。
- 单笔挂单金额逐年降低,2024年中位数约1.4万元,显示拆单行为广泛(图18)。
- 连续挂单金额呈逐渐递减趋势,2024年较2018年更明显,支持分拆订单的拆解特征(图19)。
插图还介绍了交易算法的演进(图20、21),冰山、TWAP等算法通过拆单实现低滑点隐匿订单,有效影响微观结构。
结论指出,长期记忆性实质为算法交易在订单时序上产生的现象,而非散户羊群效应。基于该现象,可开辟新的Alpha因子设计思路。[page::8,9,10,11]
---
2.2 Alpha策略:特征识别与分域讨论
报告基于长期记忆性的规律提出三大因子开发思路:
- 自相关系数回归法(LMS因子):计算1至100阶自相关系数,滞后阶对数值与自相关系数线性回归,截距作为长期记忆强度量化指标。(图22)
- 频谱分析法:傅里叶变换将时域订单方向序列转为频域信息,考察强波频率占比指标(OST因子)。(图32-34)
- 同类订单连续出现计数法(订单小岛因子):编码连续相同方向订单的长度,作为连续交易行为的代理指标。(图37-39)
2.2.1 自相关系数回归法细化
LMS因子于2018-2024年间显现13%的多空超额收益,ICIR近2,说明具有效用(图22)。与传统风格因子相关性较低(图23),表现为独立信息来源,特别在中证1000指数成分股中的表现优于沪深300,定位于反映机构优质交易行为,而非简单市值权重(表2)。
不过,LMS因子收益在不同时间上不稳定,尤其2018年表现不佳(图24,25)。线性回归拟合存在局限,报告分别提出基于统计学指标(偏度、峰度、变异系数等)替代单一截距项进行因子构造,显著提升因子稳定性和有效性,峰度和偏度因子表现最佳(表3,图26)。
基于微观结构下标的筛选策略发现,选择价优和小额委托订单样本能够较好体现长期记忆现象,提升因子效果(表4,图27)。引入价格和数量复合因子效果有限,价格波动空间小,数量影响不显著(表5,图28)。
最终构造的高维记忆MEMO因子融合峰度和偏度指标,在滤除非典型交易段后表现出更稳定的多空超额收益,ICIR最高超过5(图29-31,表6)。MEMO因子在大市值和微盘股中表现相对较弱,符合市场交易行为差异(流动性及算法交易差异)[page::11,12,13,14,15,16]
2.2.2 频谱分析法
通过傅里叶变换获得频谱内的“强波”振幅分布,用来捕捉订单流周期性。其累计强波占比分布呈下凹型(图32),与自相关系数高度相关(图33)。
因算法交易偏重小额订单,频谱因子OST引入样本筛选(取委托数量下50%)进一步提纯信号。测试表明OST因子2022年后收益明显回升(图34),但整体分域表现一般,月度对冲收益部分波动(表7,图35),与常规风格相关度低(图36)。
2.2.3 订单小岛法
订单小岛将连续相同方向订单长度编码为序列,统计分布用统计量构造因子,其中均值和标准差因子表现相对优异(表8,图37、38)。该因子反映交易连续性但难以区分买卖方向(图39),再次验证拆单行为普适存在于买卖双方,体现为整体交易者结构特征,而非单边Alpha指示。
---
2.3. 机器学习模型赋能
为提升因子综合预测能力,报告使用两种主流机器学习算法进行特征合成:
2.3.1 树模型
- XGBoost:训练样本为2018年至2022年6月,20日未来收益作为标签,模型深度5树层限制。结果表明样本内表现良好,IC与收益较高(图40),但样本外泛化能力差,超额收益仅8.6%,胜率从98%降至70%(图41)。
- LightGBM:作为高效梯度提升树实现,训练同样数据集,下游表现优于XGBoost,样本内外的IC和分组单调性更优,泛化能力更强(图42,43)。
2.3.2 网络模型
采用长短期记忆网络(LSTM)捕捉序列长期依赖,单纯MSE损失函数导致模型过度关注空头表现,整体样本外表现一般(图44);通过引入负IC绝对值惩罚实现方向性预算目标后效果改善,竞争力增加,IC、分组效果明显上升(图45)。
总结来看,LightGBM在特征合成中得分最高,兼顾预测力与泛化,LSTM虽适合序列数据,但模型复杂度与参数调节需加强,防止局部最优。
---
2.4 风险提示
- 所有模型均基于历史数据回测,未来市场变化可能导致模型性能下降。
---
3. 图表深度解读
- 图2、3: 显示挂单方向序列的自相关系数和偏自相关系数均显著大于0,验证了长期记忆性存在性。后续订单方向与当前订单方向关联强,表明订单往往连续朝同一方向流动,非随机。
- 图4: 京东方A与五粮液的自相关系数对数滞后阶数呈线性衰减,京东方A订单间相关性更高。通过该图说明自相关系数随距离慢速减弱,符合长期记忆理论。
- 表1: 斜率与截距分别衡量自相关衰减速度与强度;沪深300、微盘股长期记忆显著较弱。截距项被选作长期记忆强度衡量标准。
- 图5、6: 按市值和换手率分类的截距项heatmap,显示2021年底前长期记忆强度普遍较低,之后显著提升,反映交易行为结构变化。
- 图7: 特殊股票(ST、新股等)长期记忆未显著高于平均水平,排除异常样本驱动。
- 图8、9: 股票价格区间的长期记忆强度变化,2018-21年偏高价股,2022年后偏低价股,反映风格轮动。
- 图10、11: 连续竞价阶段长期记忆强度明显高于集合竞价阶段,开盘首小时最显著。
- 图12、13: 价优订单与小额订单的长期记忆强度高于价次和大额订单,体现快速高频交易特性。
- 图14、15: 模拟随机订单与真实订单流对比,表明纯随机订单无长期记忆,真实订单递延关联紧密,支持算法拆单假说。
- 图16: 机构持仓比例中等阶段长期记忆最高,高持仓阶段因配置行为弱化连续性。
- 图17: 资金流Alpha收益与长期记忆强度呈背离趋势,2022年后Alpha下降而长期记忆增强。
- 图18、19: 单笔订单及连续订单金额递减趋势,2024年拆单更彻底,强化微观连续性。
- 图20、21: 交易算法原理及分类示意,突出技术手段驱动拆单。
- 图22-26: LMS因子及其偏度峰度改良因子表现,后者显著提升收益和稳定性。
- 图27-28: 因子筛样改进存在性价比,价格、数量加权效果有限。
- 图29-31: MEMO因子收益及稳定性表现良好,相关指标说明其与流动性等传统风格弱相关。
- 图32、33: 频谱强波占比分布及其与自相关系数相关性强,奠定OST因子理论基础。
- 图34-36: OST因子效能及风格相关,2022年后提升显著,流动性暴露轻。
- 图37-39: 订单小岛编码与样本分布,买卖方向识别困难,因子表现稳定。
- 图40-43: 树模型内外样本表现,LightGBM优于XGBoost。
- 图44-45: LSTM初始效果不佳,惩罚改进后有所提升。
综上,所有图表与分析均紧密结合,逐步验证报告中提出的核心观点,体现实证及策略开发的完整逻辑。[page::4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]
---
4. 估值分析
本报告性质为量化和微观结构研究,未涉及上市公司传统估值方式(DCF、市盈率等),核心内容为因子研究与Alpha策略开发,没有目标价或评级调整,故无详细估值部分分析。
---
5. 风险因素评估
- 模型风险:所有Alpha因子及机器学习模型基于历史及当前市场数据计算,若未来市场特征发生显著变化,则模型性能可能下降。
- 数据风险:部分因子依赖微观级订单数据,数据完整性、质量对因子效果及稳定性有影响。
- 市场结构风险:算法交易占比变化、监管政策变化可能导致市场行为模式调整。
- 策略风险:模型泛化能力有限,特别XGBoost在样本外表现衰减明显,需要警惕过拟合。
- 操作风险:高频因子及算法交易执行中可能产生滑点、市场冲击,影响实际收益。
报告中对风险进行了明确提示,提醒投资者关注模型历史数据依赖和未来环境变化。[page::0,21]
---
6. 批判性视角与细微差别
- 报告虽然全面系统,但LMS因子表现稳定性不足,在2018年部分表现较差,提示线性拟合方法可能过于简化;偏度、峰度等统计替代虽提升效果,但仍存在一定样本依赖特征。
- OST因子尽管2022年后表现优异,但相关性较低,且收益质量不佳,回撤风险存在,暗示频谱法捕获的信息层面较特殊,非主流Alpha信号。
- 模型泛化能力是重要瓶颈,XGBoost在样本外衰减明显,LSTM尽管引入负IC惩罚提升,但整体效果仍受限。
- 报告忽略明确讨论市场结构演变对因子有效期的持续性保障,仅有短暂连接Alpha衰减与长期记忆跃迁。
- 买卖方向区分尝试结果不理想,这说明订单流特征更多反映交易强度和连贯性,而不是明确的多空方向信息,有必要在未来研究中深入探索。
- 订单拆分行为被普遍认定为长期记忆的关键来源,但对拆单算法具体类型、参数与策略适用性的定量分析缺失。
整体上,报告摆事实讲道理,实证充足,但对模型复杂性与策略可持续性保持了一定的审慎态度,未夸大Alpha潜力,体现了专业严谨。[page::12,17,19,21]
---
7. 结论性综合
本报告深入探讨了A股市场订单流中的挂单方向长期记忆性现象:
- 对挂单方向序列从理论定义到实证检测,确认A股广泛存在长期记忆现象,尤其自2022年后显著增强,表现为自相关系数随滞后阶数对数线性递减。
- 长期记忆性在不同市值、流动性、交易时间段、委托价格及数量维度表现显著差异,价优和小额委托订单凸显这种特性。
- 基于拆单算法的深刻分析和资金流Alpha衰减数据,订单流的连续性非由价格趋势或散户羊群行为驱动,而是机构拆单等算法交易形成。
- 报告提出多种构造因子方法:经典自相关回归系数LMS,基于峰度偏度的统计模型高维记忆MEMO,频谱分析OST,订单小岛计数法等,均表现出一定的预测价值和多空超额收益,且多因子较低的常规风格暴露体现独立Alpha因子特征。
- 机器学习应用表明LightGBM在诸多因子输入下的表现优于XGBoost和LSTM,后者通过引入IC惩罚改善效果,但整体有限,更复杂模型需调参把控。
- 风险提示明晰,强调历史数据依赖和未来市场演变风险。
- 报告以详尽丰富图表佐证和量化数据支撑,论述环环相扣,体现较高的研究质量和专业程度。
总体而言,挂单方向的长期记忆性为A股市场微观结构研究带来重要突破,借由现代统计信号处理和机器学习方法构建的Alpha策略展示了微观结构Alpha捕捉的新路径。结合算法拆单行为推动的长期记忆演变及其影响,报告为量化投资策略研发提供了明确的理论和实证基础,为业界研发高效微观结构因子及Alpha提供了重要指引。[page::0-21]
---
附件-部分关键图表示范markdown格式











---
结束语
以上为该报告的彻底解构与专业分析,不仅涵盖重要章节、理论推导、实证数据分析,还深刻解读图表内涵及策略构建逻辑,帮助读者全面洞察微观结构中的长期记忆性及其Alpha挖掘价值。