`

订单流系列:挂单方向长期记忆性的讨论与应用

创建于 更新于

摘要

本文围绕A股市场订单流中的挂单方向长期记忆性现象开展实证研究,揭示其存在普遍性且自2022年以来显著增强;通过自相关系数回归、频谱分析及连续订单计数等方法,开发多个捕捉该特性的Alpha因子,并结合机器学习模型进行了特征合成与验证,表明算法拆单是驱动该记忆性的核心因素之一,相关因子在中证1000等中等市值股票范围表现较优,具有投资参考价值 [page::0][page::4][page::12][page::17][page::20]

速读内容

  • 挂单方向长期记忆性定义与检验 [page::3][page::4]:

- 挂单买入标识为“1”,卖出标识为“-1”,构造数值序列;
- 计算自相关系数(ACF)和偏自相关系数(PACF),显示序列存在显著长期记忆,如图2所示;


- 自相关系数与滞后阶对数呈线性关系(图4),五粮液与京东方A表现差异显著。
  • 长期记忆性时间与空间分布特征 [page::5][page::6][page::7][page::8]:

- 自2022年起,长期记忆性显著增强,且不同市值、流动性分组表现不同,市值500以上股票长期记忆性更强(表1);
- 高价股与低价股的记忆强度偏好由2021年底起转变(图8,图9);
- 连续竞价阶段长期记忆性显著高于集合竞价阶段,价优委托和小额委托具有更强长期记忆性(图10-13);



  • 长期记忆性的驱动机理及证据 [page::8][page::9][page::10]:

- 模拟独立订单流无长期记忆,说明其非价格趋势驱动(图14);

- 主要驱动力有“羊群效应”和“算法拆单”,结合机构持仓率和股东结构,拆单行为更能解释订单流连续性(图16,17,18,19);



  • Alpha因子构建及效果验证 [page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19]:

- 三类因子构造方法:自相关系数回归(LMS)、频谱分析(OST)、订单连续次数统计(订单小岛);
- LMS因子IC约0.04,ICIR约2,分组收益正向,优于传统风格相关性低(图22,23,表2);


- LMS改进:使用偏度、峰度等统计量替代线性拟合截距,显著提升IC和IR(表3,图26);
- 样本筛选优化价优、小额委托,进一步增强选股能力(表4,图27);
- 频谱因子OST表现有所提升,2022年后有效增强(图34,表7);


- 订单小岛因子均值和标准差表现良好,选股有效(表8);

  • 买卖方向区分难度较大,长期记忆性表现对买卖委托无显著差异(图39)[page::19]。
  • 机器学习特征合成:选择树模型和网络模型进行因子融合 [page::20][page::21]:

- XGBoost在样本内收益明显,超额约15.9%,外样本收益衰减严重,超额仅8.6%(图40,41);

- LightGBM整体性能优于XGBoost,泛化能力更好,胜率和IC表现更稳定(图42,43);

- LSTM网络模型捕捉长期拆单影响,损失函数中加入负IC惩罚后样本外表现明显提升(图44,45);

  • 风险提示:模型基于历史数据,未来市场环境变化可能导致效果波动 [page::21]。

深度阅读

金融研究报告详尽深度分析报告



---

1. 元数据与概览



报告标题:订单流系列:挂单方向长期记忆性的讨论与应用
作者及团队:金融工程研究团队;核心分析师魏建榕领衔,多名分析师和研究员参与撰写。
发布机构:开源证券股份有限公司研究所
发布日期:2024年6月9日
研究主题:市场微观结构—挂单方向的长期记忆性特征及其在A股的实证规律,基于该特征开发的Alpha因子及机器学习模型的应用和表现。
核心论点与目标
  • 订单流中的挂单方向存在显著且可量化的长期记忆性,尤其在2022年及以后明显增强。

- 该长期记忆性主要由算法拆单等机构交易策略驱动,而非简单的价格趋势或散户羊群效应。
  • 基于长期记忆性,开发多种因子(包括自相关系数回归法、频谱分析、连续订单计数等)捕捉Alpha信号。

- 进一步使用机器学习模型(包括XGBoost、LightGBM和LSTM)进行特征合成,提升策略效能。
  • 识别模型与策略效果存在时间和样本分域差异,风险提示为模型基于历史数据,未来市场环境的变化可能影响效果。


整体来看,报告系统地分析了挂单方向长期记忆性的形成、演变、因子化与机器学习应用,展望挖掘微观结构中的Alpha机会,具有较强的实证支持与应用指引意义。[page::0,1]

---

2. 逐节深度解读



2.1 挂单方向长期记忆性的实证研究



2.1.1 长期记忆性的定量刻画及存在性



报告首先定义挂单方向序列,将买入标记为1,卖出标记为-1,构成数值序列。通过计算该序列的自相关函数(ACF)和偏自相关函数(PACF),发现挂单方向自相关系数显著大于零,即使滞后较长周期依然关联紧密(图2、图3)。

数学定义中,序列的自协方差\(\gammak\)与自相关系数\(\rhok\)详述了计算方法。观察个股如京东方A与五粮液的自相关系数随滞后阶数的对数值线性递减(图4),表现为幂律减弱,符合长期记忆过程的特点。

在不同股票指标分组(沪深300、中证500/1000等)中,长期记忆性表现均存在,但强度和持续性存在差异(表1),沪深300及微盘股长期记忆性较弱。对此,报告使用“截距项”指标衡量长期记忆强度。[page::3,4,5]

2.1.2 长期记忆性的时间演变与样本差异



时序角度,2021年底左右成为关键分水岭。通过按市值和换手率分组计算截距项热力图(图5、图6),清晰看到2022年以后挂单方向长期记忆强度明显升高,均值由约0.2升至0.4以上。

排除特殊股票样本(ST、新股、涨跌停影响),认为长期记忆非由异常状态驱动(图7)。而对高价股与低价股的长期记忆强度比较显示,早期(2018-2021)高价股优势明显,后期(2022-2024)则低价股偏好上升(图8、图9),体现市场风格从机构抱团高价股向中小市值转移,微观交易行为也呈动态变化。

微观视角揭示,连续竞价阶段的订单流长期记忆性提升显著,且价优(接近盘口价)和小额委托订单表现出更强的长期记忆(图10-13),暗示快速成交的策略订单具有更强的连贯性。[page::6,7,8]

2.1.3 长期记忆驱动因素分析



通过构造理想化随机订单流模型,发现价格趋势本身不能产生高自相关系数的订单序列(图14)。订单流自相关体现订单间连续性的特征(图15)。

两大驱动假设为:
  • 羊群效应:投资者观测他人行为跟进买卖,形成群体交易趋势。

- 算法拆单:机构交易者将大额订单拆分成若干方向一致的子订单,在时间上持续下单。

结合实证数据,报告更支持算法拆单为关键原因,理由包括:
  • 机构持仓比例与长期记忆强度呈倒U型(图16),持股集中度高时因配置需求导致连续性降低。

- 资金流Alpha表现与长期记忆跃迁高度重合(图17),2022年以来Alpha收益下滑伴随长期记忆强度提升。
  • 单笔挂单金额逐年降低,2024年中位数约1.4万元,显示拆单行为广泛(图18)。

- 连续挂单金额呈逐渐递减趋势,2024年较2018年更明显,支持分拆订单的拆解特征(图19)。

插图还介绍了交易算法的演进(图20、21),冰山、TWAP等算法通过拆单实现低滑点隐匿订单,有效影响微观结构。

结论指出,长期记忆性实质为算法交易在订单时序上产生的现象,而非散户羊群效应。基于该现象,可开辟新的Alpha因子设计思路。[page::8,9,10,11]

---

2.2 Alpha策略:特征识别与分域讨论



报告基于长期记忆性的规律提出三大因子开发思路:
  • 自相关系数回归法(LMS因子):计算1至100阶自相关系数,滞后阶对数值与自相关系数线性回归,截距作为长期记忆强度量化指标。(图22)

- 频谱分析法:傅里叶变换将时域订单方向序列转为频域信息,考察强波频率占比指标(OST因子)。(图32-34)
  • 同类订单连续出现计数法(订单小岛因子):编码连续相同方向订单的长度,作为连续交易行为的代理指标。(图37-39)


2.2.1 自相关系数回归法细化



LMS因子于2018-2024年间显现13%的多空超额收益,ICIR近2,说明具有效用(图22)。与传统风格因子相关性较低(图23),表现为独立信息来源,特别在中证1000指数成分股中的表现优于沪深300,定位于反映机构优质交易行为,而非简单市值权重(表2)。

不过,LMS因子收益在不同时间上不稳定,尤其2018年表现不佳(图24,25)。线性回归拟合存在局限,报告分别提出基于统计学指标(偏度、峰度、变异系数等)替代单一截距项进行因子构造,显著提升因子稳定性和有效性,峰度和偏度因子表现最佳(表3,图26)。

基于微观结构下标的筛选策略发现,选择价优和小额委托订单样本能够较好体现长期记忆现象,提升因子效果(表4,图27)。引入价格和数量复合因子效果有限,价格波动空间小,数量影响不显著(表5,图28)。

最终构造的高维记忆MEMO因子融合峰度和偏度指标,在滤除非典型交易段后表现出更稳定的多空超额收益,ICIR最高超过5(图29-31,表6)。MEMO因子在大市值和微盘股中表现相对较弱,符合市场交易行为差异(流动性及算法交易差异)[page::11,12,13,14,15,16]

2.2.2 频谱分析法



通过傅里叶变换获得频谱内的“强波”振幅分布,用来捕捉订单流周期性。其累计强波占比分布呈下凹型(图32),与自相关系数高度相关(图33)。

因算法交易偏重小额订单,频谱因子OST引入样本筛选(取委托数量下50%)进一步提纯信号。测试表明OST因子2022年后收益明显回升(图34),但整体分域表现一般,月度对冲收益部分波动(表7,图35),与常规风格相关度低(图36)。

2.2.3 订单小岛法



订单小岛将连续相同方向订单长度编码为序列,统计分布用统计量构造因子,其中均值和标准差因子表现相对优异(表8,图37、38)。该因子反映交易连续性但难以区分买卖方向(图39),再次验证拆单行为普适存在于买卖双方,体现为整体交易者结构特征,而非单边Alpha指示。

---

2.3. 机器学习模型赋能



为提升因子综合预测能力,报告使用两种主流机器学习算法进行特征合成:

2.3.1 树模型


  • XGBoost:训练样本为2018年至2022年6月,20日未来收益作为标签,模型深度5树层限制。结果表明样本内表现良好,IC与收益较高(图40),但样本外泛化能力差,超额收益仅8.6%,胜率从98%降至70%(图41)。

  • LightGBM:作为高效梯度提升树实现,训练同样数据集,下游表现优于XGBoost,样本内外的IC和分组单调性更优,泛化能力更强(图42,43)。


2.3.2 网络模型



采用长短期记忆网络(LSTM)捕捉序列长期依赖,单纯MSE损失函数导致模型过度关注空头表现,整体样本外表现一般(图44);通过引入负IC绝对值惩罚实现方向性预算目标后效果改善,竞争力增加,IC、分组效果明显上升(图45)。

总结来看,LightGBM在特征合成中得分最高,兼顾预测力与泛化,LSTM虽适合序列数据,但模型复杂度与参数调节需加强,防止局部最优。

---

2.4 风险提示


  • 所有模型均基于历史数据回测,未来市场变化可能导致模型性能下降。


---

3. 图表深度解读


  • 图2、3: 显示挂单方向序列的自相关系数和偏自相关系数均显著大于0,验证了长期记忆性存在性。后续订单方向与当前订单方向关联强,表明订单往往连续朝同一方向流动,非随机。
  • 图4: 京东方A与五粮液的自相关系数对数滞后阶数呈线性衰减,京东方A订单间相关性更高。通过该图说明自相关系数随距离慢速减弱,符合长期记忆理论。
  • 表1: 斜率与截距分别衡量自相关衰减速度与强度;沪深300、微盘股长期记忆显著较弱。截距项被选作长期记忆强度衡量标准。
  • 图5、6: 按市值和换手率分类的截距项heatmap,显示2021年底前长期记忆强度普遍较低,之后显著提升,反映交易行为结构变化。
  • 图7: 特殊股票(ST、新股等)长期记忆未显著高于平均水平,排除异常样本驱动。
  • 图8、9: 股票价格区间的长期记忆强度变化,2018-21年偏高价股,2022年后偏低价股,反映风格轮动。
  • 图10、11: 连续竞价阶段长期记忆强度明显高于集合竞价阶段,开盘首小时最显著。
  • 图12、13: 价优订单与小额订单的长期记忆强度高于价次和大额订单,体现快速高频交易特性。
  • 图14、15: 模拟随机订单与真实订单流对比,表明纯随机订单无长期记忆,真实订单递延关联紧密,支持算法拆单假说。
  • 图16: 机构持仓比例中等阶段长期记忆最高,高持仓阶段因配置行为弱化连续性。
  • 图17: 资金流Alpha收益与长期记忆强度呈背离趋势,2022年后Alpha下降而长期记忆增强。
  • 图18、19: 单笔订单及连续订单金额递减趋势,2024年拆单更彻底,强化微观连续性。
  • 图20、21: 交易算法原理及分类示意,突出技术手段驱动拆单。
  • 图22-26: LMS因子及其偏度峰度改良因子表现,后者显著提升收益和稳定性。
  • 图27-28: 因子筛样改进存在性价比,价格、数量加权效果有限。
  • 图29-31: MEMO因子收益及稳定性表现良好,相关指标说明其与流动性等传统风格弱相关。
  • 图32、33: 频谱强波占比分布及其与自相关系数相关性强,奠定OST因子理论基础。
  • 图34-36: OST因子效能及风格相关,2022年后提升显著,流动性暴露轻。
  • 图37-39: 订单小岛编码与样本分布,买卖方向识别困难,因子表现稳定。
  • 图40-43: 树模型内外样本表现,LightGBM优于XGBoost。
  • 图44-45: LSTM初始效果不佳,惩罚改进后有所提升。


综上,所有图表与分析均紧密结合,逐步验证报告中提出的核心观点,体现实证及策略开发的完整逻辑。[page::4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]

---

4. 估值分析



本报告性质为量化和微观结构研究,未涉及上市公司传统估值方式(DCF、市盈率等),核心内容为因子研究与Alpha策略开发,没有目标价或评级调整,故无详细估值部分分析。

---

5. 风险因素评估


  • 模型风险:所有Alpha因子及机器学习模型基于历史及当前市场数据计算,若未来市场特征发生显著变化,则模型性能可能下降。

- 数据风险:部分因子依赖微观级订单数据,数据完整性、质量对因子效果及稳定性有影响。
  • 市场结构风险:算法交易占比变化、监管政策变化可能导致市场行为模式调整。

- 策略风险:模型泛化能力有限,特别XGBoost在样本外表现衰减明显,需要警惕过拟合。
  • 操作风险:高频因子及算法交易执行中可能产生滑点、市场冲击,影响实际收益。


报告中对风险进行了明确提示,提醒投资者关注模型历史数据依赖和未来环境变化。[page::0,21]

---

6. 批判性视角与细微差别


  • 报告虽然全面系统,但LMS因子表现稳定性不足,在2018年部分表现较差,提示线性拟合方法可能过于简化;偏度、峰度等统计替代虽提升效果,但仍存在一定样本依赖特征。

- OST因子尽管2022年后表现优异,但相关性较低,且收益质量不佳,回撤风险存在,暗示频谱法捕获的信息层面较特殊,非主流Alpha信号。
  • 模型泛化能力是重要瓶颈,XGBoost在样本外衰减明显,LSTM尽管引入负IC惩罚提升,但整体效果仍受限。

- 报告忽略明确讨论市场结构演变对因子有效期的持续性保障,仅有短暂连接Alpha衰减与长期记忆跃迁。
  • 买卖方向区分尝试结果不理想,这说明订单流特征更多反映交易强度和连贯性,而不是明确的多空方向信息,有必要在未来研究中深入探索。

- 订单拆分行为被普遍认定为长期记忆的关键来源,但对拆单算法具体类型、参数与策略适用性的定量分析缺失。
整体上,报告摆事实讲道理,实证充足,但对模型复杂性与策略可持续性保持了一定的审慎态度,未夸大Alpha潜力,体现了专业严谨。[page::12,17,19,21]

---

7. 结论性综合



本报告深入探讨了A股市场订单流中的挂单方向长期记忆性现象:
  • 对挂单方向序列从理论定义到实证检测,确认A股广泛存在长期记忆现象,尤其自2022年后显著增强,表现为自相关系数随滞后阶数对数线性递减。

- 长期记忆性在不同市值、流动性、交易时间段、委托价格及数量维度表现显著差异,价优和小额委托订单凸显这种特性。
  • 基于拆单算法的深刻分析和资金流Alpha衰减数据,订单流的连续性非由价格趋势或散户羊群行为驱动,而是机构拆单等算法交易形成。

- 报告提出多种构造因子方法:经典自相关回归系数LMS,基于峰度偏度的统计模型高维记忆MEMO,频谱分析OST,订单小岛计数法等,均表现出一定的预测价值和多空超额收益,且多因子较低的常规风格暴露体现独立Alpha因子特征。
  • 机器学习应用表明LightGBM在诸多因子输入下的表现优于XGBoost和LSTM,后者通过引入IC惩罚改善效果,但整体有限,更复杂模型需调参把控。

- 风险提示明晰,强调历史数据依赖和未来市场演变风险。
  • 报告以详尽丰富图表佐证和量化数据支撑,论述环环相扣,体现较高的研究质量和专业程度。


总体而言,挂单方向的长期记忆性为A股市场微观结构研究带来重要突破,借由现代统计信号处理和机器学习方法构建的Alpha策略展示了微观结构Alpha捕捉的新路径。结合算法拆单行为推动的长期记忆演变及其影响,报告为量化投资策略研发提供了明确的理论和实证基础,为业界研发高效微观结构因子及Alpha提供了重要指引。[page::0-21]

---

附件-部分关键图表示范markdown格式



图2:挂单方向的ACF 和 PACF 显著大于零

图4:自相关系数随滞后阶数对数值的变化基本符合线性特征

图5:在市值分组下截距项随时间变化

图12:价优委托的长期记忆性强度更高

图19:2024 年相比2018 年,连续订单的金额衰减的现象更明显

图22:长期记忆强度LMS 的十分组不单调

图29:高维记忆MEMO 因子的十分组测试结果较优

图34:分拆痕迹<em>OST 因子在 2022 年以来表现有所增强

图40:XGBoost 样本内 R2 为 0.013

图42:Light GBM 样本内 R2 为 0.015

图44:LSTM</em>MSE 样本外预测效果较为一般


---

结束语



以上为该报告的彻底解构与专业分析,不仅涵盖重要章节、理论推导、实证数据分析,还深刻解读图表内涵及策略构建逻辑,帮助读者全面洞察微观结构中的长期记忆性及其Alpha挖掘价值。

报告