另辟蹊径系列之一:基于高频快照数据的行为追踪因子
创建于 更新于
摘要
本报告基于高频快照数据构建了高低价格区间成交笔数、成交量及平均每笔成交量三类因子,反映市场行为的微观结构。三类因子均表现出良好的选股能力,且通过加权合成行为追踪因子,优化后因子在日频和周频换仓测试均获得显著超额收益。基于该因子构建的周频换仓策略在2016年至2021年回测中实现了年化收益率10.13%,年化超额收益7.34%,显示出较强的稳定性与风险调整收益能力,验证了高频快照数据在量化选股中的应用价值 [page::0][page::4][page::8][page::10][page::14][page::15]。
速读内容
- 高频数据及因子构建背景 [page::0][page::1][page::2]

- 高频数据分为快照数据(tick级量价和盘口挂单数据)和逐笔数据(逐笔成交和逐笔委托),本报告聚焦快照数据,重点研究日内高低价格区间不同成交特征。
- 快照数据能精准反映股票价格波动及买卖意愿,逐笔数据反映交易细节,皆为捕捉市场微观结构的重要基础。
- 行为追踪因子的三类单因素设计及含义 [page::2][page::3][page::4]
- 高低价格区间成交笔数占比因子,衡量价格区间内成交聚集度,反映买卖行为的密集程度。
- 高低价格区间成交量占比因子,体现该区间成交额大小,反映交易活跃度。
- 高低价格区间平均每笔成交量因子,衡量大小资金活跃度,区分机构与散户行为。
- 单因素日频测试与分位数组合表现 [page::4][page::5][page::6][page::7][page::8]





- 高价格区间成交笔数及成交量因子与未来收益显负相关,价格区间成交笔数/量越高,后续上涨可能性越低,反映高位资金出货或散户追高风险。
- 低价格区间平均每笔成交量因子与收益正相关,反映低价位大资金活跃度,预示潜在上涨动能。
- 各因子分组组合表现出显著的超额收益,Top组合超额收益明显优于Bottom组合,因子信号稳定。
- 高频因子低频化处理及周频测试 [page::8][page::9][page::10]



- 采用移动平均和加权移动平均方法平滑日频因子,提高因子稳定性。
- 周频换仓回测显示加工处理后的因子IC提高,低价格区间平均每笔成交量因子效果最佳,表现出较高的选股稳定性。
- 行为追踪因子合成与表现 [page::10][page::11][page::12][page::13]






- 三因子标准化加权合成行为追踪因子(权重0.25,0.25,0.5),效果显著优于单一因子。
- 日频行为追踪因子IC绝对值达3.99%,ICIR 0.45,多空收益50.01%。
- 周频处理后,IC绝对值提升至5.12%,多空收益达25.86%,最大回撤低至8.08%。
- 基于行为追踪因子的周频策略回测结果 [page::13][page::14]


- 策略以中证500为标的池,周频调仓,持仓100只,调整行业权重,交易成本按单边千一计。
- 回测年化收益10.13%,超额收益7.34%,夏普比率0.50,信息比率1.54。
- 超额收益稳步提升,2018年实现14.29%超额收益,整体策略稳健且显著优于等权基准。
- 风险提示及总结 [page::14][page::15]
- 模型基于历史数据建模,受政策及市场环境变化影响存在失效风险。
- 高频快照数据发掘的行为追踪因子有效捕捉市场微观结构信息,提升选股能力与策略业绩。
深度阅读
报告详细分析解读 —— 《另辟蹊径系列之一:基于高频快照数据的行为追踪因子》
---
1. 元数据与报告概览
- 报告标题:《另辟蹊径系列之一:基于高频快照数据的行为追踪因子》
- 作者及团队:高智威(金融工程首席分析师),东兴证券金融工程团队
- 发布日期:2021年10月18日
- 研究机构:东兴证券研究所
- 研究主题:基于高频快照数据,开发量化选股因子及策略,挖掘市场微观结构信息以实现超额收益。
核心论点与主要内容:
报告指出,传统多因子模型多依赖基本面或低频量价因子,换仓频率低,且近年表现平平。新时代市场风格切换频繁,基于高频数据的短线策略逐渐受到重视。快照数据是高频量价数据的重要组成,通过细致刻画日内价格波动和盘口挂单信息,能够捕捉投资者瞬时行为,从而构建新的行为追踪因子。
报告重点构建三类快照数据因子:高低价格区间成交笔数因子、成交量因子及平均每笔成交量因子。并在中证500股票池中做日频及周频回测,显示这些因子均具有显著的选股能力。合成的市场行为追踪因子表现优于任一单因子,策略实现较好超额收益,且风险可控。
报告的主要信息为:引入高频快照数据量价信息,发掘市场微观结构形成有效行为因子,显著提升策略表现,尤其是周频换仓周期更为稳定,具备实际应用价值。[page::0, 14]
---
2. 逐节深度解读
2.1 高频数据介绍(第1章)
- 高频数据分为两大类:
- 快照数据(Tick行情数据):每3秒采集一次,包含tick级量价数据(高开低收、成交量、笔数等)和盘口委托挂单数据(10档深度)。
- 逐笔数据:包括逐笔成交数据和逐笔委托数据,能详细还原每笔成交及委托的具体信息,如买卖双方订单号、成交方向等。
报告用图1分类示意,及若干表格展示数据结构与样例,说明该数据来源于Wind。
- 量价数据反映了价格、成交量、成交笔数随时间的变化。
- 盘口挂单数据反映投资者买卖意愿和买卖压力分布。
- 逐笔数据能更细致地捕捉资金流向及买卖对手盘情况。[page::1, 2, 3]
2.2 基于快照数据的因子构建(第2章)
- 报告核心在于利用一日内的高频快照数据,分价位区间细分股票日内价格走势,超过传统基于最高最低价的线性划分。
- 通过确定“高价格区间”和“低价格区间”的分位数(如前20%和后20%),计算相关因子:
1. 成交笔数占比因子:该区间内成交笔数占全天成交笔数的比例,用以衡量成交的聚集度。
2. 成交量占比因子:该区间内成交量占全天成交量的比例,反映资金的活跃度。
3. 平均每笔成交量因子:价格区间内平均每笔成交量相对全天的比率,衡量机构(大资金)与散户(小资金)参与度差异。
- 这三个因子分别体现不同维度的行为特征:成交聚集、活跃度、资金规模参与度。
公式部分描述了因子计算的基本逻辑(用集合划分快照,累加对应成交量、笔数等)。
报告强调,该方法是基于高频快照数据实现日频换仓选股模型的基础。[page::3, 4]
2.3 高频因子的测试分析(第3章)
报告在中证500股票池用2016年7月至2021年8月数据开展回测,换仓周期涉及日频和周频。
3.3.1 成交笔数占比因子测试
- 高价格区间因子与未来收益负相关。例如,高价格区间成交笔数占比越高,未来股票表现越差,反映可能的高位套牢或投机行为(图2、3)。
- 低价格区间因子呈正相关,但相关性不稳定,适合非线性模型,本文主要关注线性关系(图4、5)。
- 多空组合(Top组做多,Bottom组做空)净值稳步向上,表现出较高年化超额收益(31.89%),夏普比率3.36,最大回撤13.36%(图6)。
3.3.2 成交量占比因子测试
- 高价格区间成交量因子与未来收益呈显著负相关,低价格区间呈非线性正相关趋势(表9,图7、8)。
- 多空组合表现优异,年化收益46.50%,夏普5.02,最大回撤11.59%(图9)。
3.3.3 平均每笔成交量因子测试
- 高价格区间平均每笔成交量因子与未来收益负相关,低价格区间正相关,相关性较为稳定(表11,图10-13)。
- 多空组合年化收益33.00%,夏普5.36,最大回撤5.64%(图14)。
三类因子均表现出不同价格区间投资者行为与股票收益之间的显著联系,高位活跃度过高预示后续表现不佳,低位机构活跃度高则预示表现向好。
3.3.4 高频因子的低频化处理及周频测试
- 为解决日频因子收益覆盖交易成本的问题,报告引入移动平均及加权移动平均处理(日算因子平滑方法),并将因子应用于周频换仓策略。
- 经过处理的因子IC、夏普、收益等指标均显著优于未处理因子。
- 周频测试结果显示各因子保持稳定的选股能力,其中低价格区间平均每笔成交量因子表现最佳(年化多空收益20.73%,夏普2.63)。
报告系统提供了因子采样频率与换仓频率对应策略设计的解决方案,提高了因子在实际投资中的稳定性和执行效率。[page::6, 7, 8, 9, 10]
2.4 行为追踪因子的合成与策略构建(第4章)
- 基于三类关键因子,进行加权合成形成行为追踪因子(权重为高价区成交笔数0.25、高价区成交量0.25、低价区平均成交量0.5),考虑因子间相关性做权重调整,使因子信息互补。
- 日频测试:合成因子IC绝对值3.99%,ICIR 0.45,多空收益50.01%,显著优于单因子表现。分组收益表现清晰,Top组合收益显著跑赢市场(图18、19)。
- 周频测试:经过加权移动平均处理的因子IC绝对值5.12%,多空收益25.86%,最大回撤8.08%,表现稳健,分组收益呈现良好梯度(图20、21)。
- 策略采用中证500成分股,周频调仓,持仓100只,结合行业权重,交易成本假设千分之一,回测时间2016-2021年。
- 策略年化收益10.13%,显著跑赢等权基准2.36%,年化超额收益7.34%;信息比率1.54,表现较为优秀且风险可控(图22、23,表22)。
- 年度表现稳定,除了2019年略平,其他年份均取得正超额收益,尤其2018年超额收益达到14.29%(图24、25)。
策略体现了基于高频快照数据微观行为因子的良好实用价值,尤其周频换仓能有效缓解日频交易成本压力并保持选股能力。[page::11, 12, 13, 14]
---
3. 图表深度解读
(以下仅列出部分关键图表,重点突出)
- 图1(高频数据分类):清晰区分快照数据和逐笔数据两类高频数据,明确研究边界和数据来源,为后续因子构建奠定数据基础。
- 图2~5(成交笔数因子分组超额收益):显示高价格区间成交笔数因子与未来收益显著负相关,低价格区间正相关但非稳健。Top组年化超额收益显著,体现因子预测能力。
- 图6(成交笔数因子多空组合净值):多空组合净值稳步上升,策略表现持续优于市场,风险可控。
- 图7~9(成交量因子分组收益及净值):类似成交笔数因子,且表现更优。多空组合年化收益46.5%,夏普5.02,风险指标均优。
- 图10~14(平均每笔成交量因子表现):此因子凸显大资金行为特征,收益稳定且风险极低(最大回撤5.64%),说明资金面行为是未来收益的显著信号。
- 图15~17(周频换仓后的多空净值):因子平滑处理后显著提升稳定性和收益,证明因子在实际操作中更适合低频换仓。
- 图18~21(行为追踪因子分组表现及净值):多因子合成后表现提升,日频及周频均稳定。多空组合累计净值显著上涨,净值曲线平滑,风险适中。
- 图22~23(策略多头净值及超额净值):策略净值持续超越等权基准,超额净值稳步增长,体现策略具有稳定的超额收益能力和较低的回撤。
- 图24~25(策略年度收益及超额收益):分年度分析策略表现,显示绝大多数年份均有显著超额收益,突出策略稳定性和一致性。
整体视觉呈现配合详细数据统计,系统展示了因子设计、测试、合成及策略构建的全过程,证明理论与实证的一致性和可靠性。[page::1-15]
---
4. 估值分析
本报告聚焦于量化因子的提炼与策略构建,并无传统意义上的估值分析(如DCF、PE等),而是以信息系数(IC)、信息比率(ICIR)、多空组合收益率以及夏普率为核心指标评估因子及策略的投资价值。
- IC衡量因子和未来收益的相关性,绝对值3%-5%虽不大,但在横跨多年、数百只股票中仍属显著。
- ICIR为IC的稳定性指标,因子预测信号稳定。
- 多空收益率作为策略净收益表现,验证因子的投资实用性。
- 夏普率衡量风险调整后收益,数值均超过高频量价策略普遍水平,显示风险控制良好。
报告还进行了因子低频化处理、加权移动平均等技术手段提升因子稳定性和策略可操作性,体现了对实际执行中成本及换仓频率的合理考量。
---
5. 风险因素评估
报告风险提示较为简洁,列明:
- 回测结果基于历史数据统计和模型建构,存在政策及市场环境变化导致模型失效的风险。
- 高频数据策略需面对高频交易成本和市场结构变化风险。
- 对因子稳定性和预测能力的持续验证需求,模型显然依赖数据质量和稳定性。
风险提示虽明确,但未详细展开对潜在市场极端风险、流动性风险、结构性风险等的可能影响和缓解策略,预留了模型持续调整空间。
---
6. 批判性视角与细微差别
- 报告优势:
- 独辟蹊径,挖掘高频快照微观结构,填补传统因子研究盲区。
- 系统设计因子,理论结合经济逻辑清晰(如高价区资金活跃度与股价走势负相关,契合机构获利了结等投资者行为)。
- 测试覆盖日频与周频换仓,考虑交易成本,提高实操价值。
- 多维度回测稳健,指标全面,表现令人信服。
- 可能的局限:
- 因子IC虽显著,但绝对值较小,意味着信号较弱,模型对市场异常敏感。
- 仅覆盖中证500,行业、规模及市场环境的适用性未广泛验证。
- 高频数据质量、处理技术要求极高,实现门槛较大。
- 风险提示较为通用,缺乏对模型在不同牛熊市、极端行情下表现的系统剖析。
- 公式表达部分出现乱码,理论描述不够严谨清晰。
- 细微之处:
- 高价区因子为负相关,低价区因子为正相关的因子逻辑体现了市场行为的非对称性,适合在多因子框架中做风格调节。
- 低价区平均每笔成交量因子的优异表现反映机构资金介入的关键角色。
- 日频多头收益未能覆盖交易成本,采用加权移动均值优化策略,显示对策略执行难度的深入理解。
---
7. 结论性综合
报告围绕基于高频快照数据的市场微观结构构建了三类关键投资行为因子:高低价格区间成交笔数占比、成交量占比及平均每笔成交量因子。实证研究表明:
- 高价格区间成交行为活跃度与未来股票收益负相关,提示高位资金追涨风险。
- 低价格区间特别是平均每笔成交量代表的大资金活跃度与未来收益正相关,体现机构资金参与度是正向信号。
- 这三类因子均表现出显著的预测能力,且综合合成的行为追踪因子效果优于任一单因子。
- 因子经过加权移动平均处理后,周频换仓表现稳健,策略实现年化收益10.13%,超额收益7.34%,信息比率1.54,风险敞口较小。
- 策略因子设计结合了严密的经济学逻辑和高频数据优势,能以低频操作捕捉高频市场信息,具备较强实用潜力。
报告通过丰富的图表和数据,全面阐释了因子的构建、测试、优化及策略应用全流程,展现了以高频快照数据挖掘市场行为因子的创新思路与强烈的应用价值。
---
综上所述,本报告为投资者提供了新颖且专业的量化因子研究视角和策略框架,在当前多因子模型同质化严重、传统低频因子效果平淡的市场环境中,基于高频快照数据的行为追踪因子及其对应策略表现出较强的识别能力和投资价值,值得行业内外关注和进一步研究。[page::0-16]
---
附录:部分关键图表示例
高频数据分类示意图
高价格区间成交笔数因子多空组合净值走势,显著跑赢市场
高价格区间成交量因子多空组合净值走势,表现优异
行为追踪因子日频多空组合净值曲线
行为追踪策略多头净值表现,优于等权基准
行为追踪策略年度超额收益表现,体现策略稳定性
---
以上即为本报告的全面、细致解析,涵盖逻辑结构、因子设计、回测表现、图表解读、风险及批判性观察,力求为读者提供系统而深入的理解。