`

基于高频快照数据的行为追踪因子另辟蹊径系列之一

创建于 更新于

摘要

本报告基于高频快照数据构建了高低价格区间成交笔数占比因子、成交量占比因子和平均每笔成交量因子,反映股票日内价格区间的成交聚集度、资金活跃度及大小资金参与度。三类因子分别经日频及周频换仓测试均表现良好,且组合成的行为追踪因子优于单一因子,构建的周频换仓策略实现了2016年7月至2021年8月期间10.13%的年化收益率,超越基准组合7.34个百分点,信息比率达1.54,显示出高频快照数据在市场微观结构挖掘中的有效性和较强的选股能力,为量化投资提供创新思路[page::0][page::9][page::18][page::20][page::22][page::23]

速读内容

  • 高频数据分类及定义 [page::3]


- 高频数据分为快照数据和逐笔数据,快照数据含tick级量价和盘口委托挂单,记录每3秒行情。
- 逐笔数据细致记录单笔成交和委托,反映买卖双方订单动态。
  • 三类基于快照数据的因子构建 [page::7]

- 高低价格区间成交笔数占比因子:反映价格区间内成交聚集度。
- 高低价格区间成交量占比因子:体现资金活跃度。
- 高低价格区间平均每笔成交量因子:衡量大小资金参与程度。
  • 因子日频测试及表现 [page::8-13]




| 因子类型 | IC值(高价区间) | IC值(低价区间) | 年化多空收益率 | 夏普比率 | 最大回撤 |
|----------|--------------|--------------|--------------|---------|---------|
| 成交笔数因子 | -3.01% | +2.43% | 31.89% | 3.36 | 13.36% |
| 成交量因子 | -3.87% | +3.25% | 46.50% | 5.02 | 11.59% |
| 平均每笔成交量因子 | -2.96% | +2.81% | 33.00% | 5.36 | 5.64% |
- 高价格区间因子与未来收益呈负相关,低价格区间因子与未来收益呈正相关。
- 分位数组合测试显示Top组合优异,多空组合风险可控。
  • 因子低频化加工及周频测试 [page::13-16]



- 采用移动平均和加权移动平均方法提高因子稳定性。
- 周频换仓测试中低价格区间平均每笔成交量因子表现最佳,年化收益达20.73%,夏普率2.63。
  • 行为追踪因子合成及回测表现 [page::17-22]





| 指标 | 行为追踪因子策略 | 等权基准组合 |
|------------|-----------------|------------|
| 年化收益率 | 10.13% | 2.36% |
| 年化超额收益 | 7.34% | - |
| 夏普比率 | 0.50 | - |
| 信息比率 | 1.54 | - |
- 因子权重为成交笔数0.25,成交量0.25,平均每笔成交量0.5。
- 行为追踪因子日频IC绝对值约3.99%,周频达5.12%,均优于单一因子。
- 策略分年度表现整体稳健,2018年超额收益最高达14.29%。
  • 风险提示 [page::0][page::23]

- 模型基于历史数据及统计分析,存在政策或市场环境变化导致失效的风险。

深度阅读

基于高频快照数据的行为追踪因子研究报告详尽分析



---

一、元数据与概览


  • 报告标题:《基于高频快照数据的行为追踪因子另辟蹊径系列之一》

- 作者:高智威(东兴证券金融工程首席分析师)
  • 发布机构:东兴证券研究所

- 日期:2023年(具体日期未明)
  • 研究主题:基于中国A股市场高频快照数据,构建行为追踪因子,探索高频市场微观结构因子对股票未来收益的预测能力,及其在选股及量化策略中的应用效果。


核心论点与结论



报告认为:
传统多因子模型多基于低频基本面数据和低频量价因子,换仓频率较低,在当前风格频繁切换的市场环境中表现平平。基于高频快照数据(日内3秒更新的tick数据)构建的行为追踪因子,因精细刻画市场微观结构,能更有效反映机构与散户行为,展现投资者买卖压力,对未来收益有显著预测能力。
通过日频和周频换仓的实证回测,三类高频因子(成交笔数因子、成交量因子、平均每笔成交量因子)均有较好表现,且合成的综合行为追踪因子的表现优于单一因子,具体IC、ICIR和多空收益均体现其有效性。基于此因子构建的周频换仓策略在2016年7月至2021年8月间实现年化10.13%收益,较等权基准超额7.34%,信息比率1.54,回撤较低,风险收益表现优异。
风险提示为模型基于历史数据,存在政策和市场环境变化导致失效的可能。[page::0, 23]

---

二、逐节深度解读



1. 高频数据介绍与分类



报告开篇指出传统多因子模型基于低频因子,市场波动中存在风格频繁切换,私募机构日益重视基于高频量价数据的短线策略。高频数据主要分为两类:
  • 快照数据(Tick行情数据):每3秒一次,包含最新市场行情,记录tick级别的量价数据(高开低收价格、成交量、成交笔数)及盘口委托挂单数据(盘口买卖挂单深度,显示投资者买卖意愿)。快照数据能够精细描绘日内价格波动及买卖压力的时间分布。

- 逐笔数据:包含逐笔成交数据(每笔成交详细信息,如价格、成交量、买卖方向)和逐笔委托数据(每笔委托订单的详细信息,包括买卖单号、价格、撤单等)。有助于分析市场资金流向及买卖单主动性、被动性的细节。

本报告聚焦快照数据,后续将陆续研究逐笔数据相关因子。[page::3, 5]

---

2. 基于快照数据因子的构建



2.1 高频价格区间划分



基于高频快照数据分析股票日内高低价格区间的交易行为。区别于传统日内最高价与最低价间均匀线性划分,本研究根据价格的时序分布,以高低分位数划定高价格区间和低价格区间(如最高20%为高价格区间,最低20%为低价格区间),实现更精准区间定义。

2.2 三类高频因子定义


  1. 高低价格区间成交笔数占比因子:所选高或低价格区间内的成交笔数总和占全天成交笔数总和的比例。成交笔数代表交易频次,反映市场交易的活跃投资者或买卖力度集中程度。
  2. 高低价格区间成交量占比因子:所选价格区间内成交量占全天成交量之比,体现该区间资金量规模,反映资金密集程度。
  3. 高低价格区间平均每笔成交量因子:特定价格区间平均每笔成交量与全天平均每笔成交量的比值。用以衡量大资金(大单)参与度,特别关注机构参与的可能性。


以上因子均依据盘中快照数据逐笔统计,准确刻画市场微观结构,捕捉投资者买卖行为特征。[page::6, 7]

---

3. 因子测试



3.1 高频因子日频测试



测试回测范围中证500(2016-2021年),日频换仓,开盘价换仓,按因子值将股票分为5组,构造分组组合及多空组合,评估因子预测能力。
  • 成交笔数因子:

- 高价格区间成交笔数因子与未来股票收益负相关,IC绝对值约3%;Top组合表现强劲,年化收益显著优于市场,Bottom组合表现显著较差,形成明显的收益差异和多空组合收益(年化多空收益达31.89%,夏普3.36,最大回撤13.36%)。
- 低价格区间部分表现正相关,但不稳定,非线性表现明显,报告主体不重视这一部分。
  • 成交量因子:

- 高价格区间成交量因子同成交笔数因子表现一致,负相关,Top组合表现优异,年化多空收益达46.50%,夏普5.02,最大回撤11.59%,表现优于成交笔数因子。
- 低价格区间成交量因子同样表现非线性。
  • 平均每笔成交量因子:

- 高价格区间平均每笔成交量因子与收益负相关,低价格区间平均每笔成交量因子与收益显著正相关,IC绝对值均约3%。
- 低价格区间因子Top组合年化超额收益19.67%,多空组合年化33.00%,夏普5.36,最大回撤5.64%。

整体来看,高价格区间因子负相关暗示高价区间活跃成交或大单参与可能代表获利回吐或散户追涨,股价或面临回调风险。低价格区间尤其是平均每笔成交量因子与未来涨幅正相关,显示机构或大单资金在低价区间活跃往往预示后续上涨动力。[page::8~13]

3.2 高频因子周频处理



考虑到日频策略频繁换仓可能导致成本过高,作者采用简单均值和指数加权移动平均对日因子做平滑,形成周频因子。测试表明多日加权平均因子的周频预测能力明显优于单日因子。

3.3 高频因子周频换仓测试


  • 以中证500为池,5组分层,周频换仓,结果显示经过加权平均处理后的因子,尤其低价格区间平均每笔成交量因子表现最佳,年化多空收益达20.73%,夏普2.63,IC显著提升。
  • 各因子周频多空组合收益净值均稳步上涨,验证因子预测的稳定性和实际策略应用价值。[page::14~17]


---

4. 基于行为追踪因子的综合策略构建



4.1 行为追踪因子构建



鉴于高价格区间成交笔数因子与成交量因子高度相关,作者将三类因子标准化后按权重(0.25,0.25,0.5)加权合成综合行为追踪因子。
  • 日频测试: 综合因子IC绝对值达到3.99%,ICIR 0.45,多空收益达到50.01%,均优于单一因子,表明因子合成提升预测能力。
  • 周频测试: 加权平均处理后周频因子IC绝对值为5.12%,多空收益达25.86%,最大回撤仅8.08%,显示因子稳定性和风险控制能力。


4.2 周频换仓策略构建及回测


  • 策略对象为中证500,周初开盘换仓,持仓100只股票,行业权重匹配股票池,单边交易成本0.1%。
  • 回测结果:

- 策略年化收益10.13%,基准等权组合年化仅为2.36%。
- 年化超额收益7.34%,夏普比率0.50,信息比率1.54。
- 超额净值曲线稳步上行,回撤较小。
- 按年度统计,2016-2021年除2019年与基准持平外,均实现稳定超额收益,2018年超额收益最高达14.29%。

整体策略表现稳健,收益风险可控,因子有效捕捉市场行为信号。[page::17~22]

---

5. 总结



报告总结构建了基于高频快照数据的行为追踪因子体系,包括成交笔数占比因子、成交量占比因子和平均每笔成交量因子,均能有效反映市场内机构与散户在不同价格区间的交易行为。

归纳发现:
  • 高价格区间因子负相关于未来收益,反映了高价区间资金活跃度提高可能伴随资本撤出或追涨杀跌风险。

- 低价格区间平均每笔成交量因子与未来收益正相关,显示大资金在低价区间活跃往往助推股票上涨。

综合因子的选股能力较强,且通过加工处理适用于更长持仓周期。基于该因子构建的周频换仓策略表现良好,回测显示其在风险可控的前提下实现了显著的超额收益。

风险方面,报告强调模型基于历史数据,受政策及市场环境变化影响,可能存在失效风险。[page::23]

---

三、图表深度解读



图1 高频数据分类



展示两类数据构成,清晰阐明快照数据和逐笔数据的基本框架,作为后续因子构建数据基础说明。[page::3]

图2-6 成交笔数因子日频表现


  • 图2、3显示高价格区间成交笔数(20%,30%分位)分组超额收益率,从Top组至Bottom组呈现明显递减趋势,Top组年化收益显著高于市场,Bottom组显著低于市场。

- 图4、5低价格区间同因子表现非线性波动,不完全单调。
  • 图6净值曲线展示,Top组合净值稳增,多空组合收益良好,表明该因子有效区分股票未来表现。[page::8~10]


图7-9 成交量因子日频表现


  • 高价格区间成交量因子(20%、30%)表现与成交笔数因子类似,Top组合显著跑赢市场,Bottom组合跑输市场。

- 多空组合收益率高达46.50%,波动小,回撤11.59%,实力优于成交笔数因子。
  • 净值曲线趋势清晰稳定上涨,支撑因子稳定选股能力。[page::10~11]


图10-14 平均每笔成交量因子日频表现


  • 高、低价格区间平均每笔成交量因子均表现出明显的分组收益率梯度,Top组收益率明显优于市场。

- 多空组合年化收益高达33%,夏普5.36,最大回撤仅5.64%,为三类因子中波动最小且风险调整后最优。
  • 净值曲线平滑上升,显示因子稳定且稳健。[page::12~13]


图15-17 周频加权平均因子表现


  • 周频测试采用5或10日加权平均,净值曲线平缓更稳定。

- 加权平均后因子IC值及多空收益均得到提升。
  • 各因子净值线Top与Bottom差距较大,多空组合表现优良。[page::15~16]


图18-21 行为追踪因子综合表现


  • 行为追踪因子日频及周频分组超额收益表现均明显,Top/Bot收益差异显著,多空组合稳步上涨。

- 简化风险与换仓成本,综合因子优于单因子选股效果。
  • 多空组合收益显著,净值持续增长,最大回撤控制良好。[page::18~20]


图22-25 基于行为追踪因子的周频换仓策略回测


  • 策略多头净值显著跑赢等权基准,超额净值稳步增长。

- 年化收益率10.13%,超额7.34%级别,信息比率1.54,表明风险调整后收益稳定。
  • 分年度收益多数年份实现超额收益,2019年表现与基准接近,年度波动正常。

- 策略回撤较小,风险控制效果佳。[page::20~22]

---

四、估值分析



本报告侧重因子构建和策略效果验证,未涉具体估值模型(如DCF、P/E、多因素回归等)分析,因子研究本质是为了提升选股模型的预测准确度及超额收益,未涉及传统意义上的估值因子定价,故无估值分析章节。

---

五、风险因素评估



报告明确指出模型基于历史市场数据统计和特定时间段(2016-2021年)的回测,未来政策调整、市场结构变化可能导致模型失效。建议投资者关注宏观政策风格切换及市场波动情况。缺少针对风险发生概率的量化评价与缓解方案,但明确提示投资者需审慎对待模型结果。[page::0, 23]

---

六、批判性视角与细微差别


  • 正面分析:本报告创新结合快照级别的高频量价数据,挖掘投资者行为的微观维度,因子设计逻辑清晰,符合经济学上机构与散户行为特征,实证结果支持因子有效性。
  • 潜在不足

- 模型验证时间主要在2016-2021年,中长熊市、极端行情或新的市场微观结构可能使因子失灵。
- 低价格区间成交笔数和成交量因子形态非线性,报告未深入挖掘非线性建模或交叉因子组合,存在潜力空间但被暂时忽略。
- 因子权重固定(0.25,0.25,0.5),未采用机器学习自适应权重或动态调整,可能影响因子合成效果。
- 交易成本假设单边千一较低,实际操作成本受滑点、市场冲击影响可能被高估策略收益。
- 回测合成因子稳定性强,但缺乏跨市场、跨周期扩展验证,外推性依赖历史有效性,仍需谨慎。
  • 内在统一性:报告逻辑严密,章节衔接自然,数据与图表支持充分,没有明显自相矛盾之处。


---

七、结论性综合



本报告深刻挖掘了中国A股市场基于3秒tick级快照数据的高低价格区间交易行为特征,构建了三大类高频因子——成交笔数占比、成交量占比、平均每笔成交量因子。这些因子有效探测了不同价格区间内投资者,尤其是机构资金的活跃度及市场微观的买卖压力。实证分析显示:
  • 高价格区间因子与未来收益负相关,揭示大资金高抛或散户盲目追高的风险信号。

- 低价格区间平均每笔成交量因子正相关,反映机构或大单资金在低位的买入意愿及后续股价上涨动能。

通过合理权重合成综合行为追踪因子后,日频和周频均展示了优秀的IC值、多空收益和风险指标,验证了因子在选股和策略构建中的实用性。基于该因子的周频换仓策略,在回测期内获得了年化10.13%收益,超越同期等权基准7.34%的超额收益,信息比率达1.54,风险调整后表现稳健。

综合图表如因子IC统计表、多空收益净值曲线以及策略年度表现条形图清晰呈现该因子策略的显著优势及稳健性,曲线走势平滑,回撤可控,尤其是多空组合净值线的稳健增长有力支持因子筛选的有效性。

总之,报告提出了一条基于高频快照交易微观结构维度挖掘投资信号的创新路径,填补了传统低频因子策略在高频短线选股上的空白,值得投资者关注并持续追踪改进。

---

重要图表参考汇总



| 图表编号 | 说明 | 页码 |
|----------|--------------------------------------------------------------|--------|
| 图1 | 高频数据分类框架,快照数据与逐笔数据的基本组成 | 3 |
| 图2-6 | 高价格区间成交笔数因子分组超额收益与多空组合净值表现 | 8-10 |
| 图7-9 | 高价格区间成交量因子分组及多空组合收益 | 10-11 |
| 图10-14 | 高低价格区间平均每笔成交量因子分位数组合及多空净值表现 | 12-13 |
| 图15-17 | 周频加权平滑处理后的三类因子多空组合净值 | 15-16 |
| 图18-19 | 行为追踪因子日频分组超额收益与多空净值 | 18 |
| 图20-21 | 行为追踪因子周频分组超额收益与多空净值 | 19-20 |
| 图22-23 | 基于行为追踪因子的策略多头净值与超额净值 | 20-21 |
| 图24-25 | 策略年度收益率及超额收益率 | 22 |

所有图表均显示因子多空组合策略平稳上涨,因子显著具备选股能力。

---

溯源标记



本分析主要参考报告各章节内容,于页码0至23完整覆盖报告全部论点、数据、图表及结论。[page::0, 1, 3~23]

---

结语



本报告通过高频快照数据切入市场微观结构,创造性提出并验证了行为追踪因子体系,策略实证表现亮眼,显示出高频数据潜藏的投资价值,具有较强参考意义和应用潜力。投资者应注意模型存在的历史依赖与现实风险,结合自身策略需求谨慎使用。未来系列报告将进一步完善逐笔数据等维度研究,值得持续关注。

---

以上为对该金融研究报告的详尽专业分析与解读。

报告