高频研究系列二—收益率分布因子构建
创建于 更新于
摘要
本报告基于上交所、深交所Level-2分钟高频数据,构建并验证了基于收益率噪音偏离正态分布的高频选股因子nos_gs。该因子多空年化收益率高达61.10%,夏普比率9.50,IC均值5.12%,且样本外表现持续优秀,多空年化收益率达到67.05%,夏普比率12.72,回撤小于1.33%。报告详细介绍了因子的构建方法、调仓规则及回测检验,揭示该因子与大额投资者影响及流动性紧密相关,且具备较好特异性,与传统收益率分布因子低相关,独立提供风险溢价机会。[page::0][page::8][page::9][page::13][page::14]
速读内容
- 报告围绕股票日内收益率分布信息展开,提出收益率噪音偏离正态分布的因子nosgs,反映大额投资者对股票价格的影响及流动性状况,nosgs因子多空年化收益率61.10%,夏普比率9.50,IC均值5.12%,统计上稳健且有效 [page::0][page::8][page::9]

- 高频数据中股票日内收益率分布通过239个分钟收益率样本点估计,面临样本稀疏性和非独立同分布的挑战。针对流动性较差股票及大额投资者的影响,报告采用异构数据与非参数统计方法提取分布信息 [page::4][page::5]


- 常见收益率分布因子(均值、标准差、偏度、峰度等)表现良好,但与nosgs因子时序相关性低于0.5,nosgs与峰度因子相关性约0.7,且在剔除峰度影响后依旧具有较高超额收益能力,显示较好特异性和独立性 [page::7][page::11]


- nosgs因子在2014年8月至2021年8月的回测显示,多空净值稳步上升,日换手率为21.77%,最大回撤约9.8%,IC均值稳定,10分位组合差异明显,权重分配对称,说明因子分层显著有效 [page::9][page::10]


- 典型样本日案例分析显示nosgs高值股票表现流动性差且可能受大额资金影响,收益率分布偏离正态;而nosgs值低的股票流动性良好,收益率分布更接近正态 [page::12]




- nosgs因子样本外测试(2021年9月至2022年1月)表现优异,多空年化收益率67.05%,夏普比率12.72,最大回撤仅1.33%,持续稳定的IC说明因子具有持续的实战选股能力 [page::13][page::14]




- 附录部分说明涨跌停股票对高频因子回测影响显著,累计收益率偏度因子cpr_sw在剔除涨跌停股票后多头收益明显下降,表明筛除涨跌停是高频因子测试中的重要步骤 [page::15][page::16]


深度阅读
高频研究系列二—收益率分布因子构建:详尽分析报告
---
1. 元数据与报告概览
- 报告标题:高频研究系列二—收益率分布因子构建
- 作者:郑兆磊
- 发布机构:兴业证券经济与金融研究院
- 发布日期:2022年1月23日
- 研究主题:基于高频数据挖掘股票日内收益率中的分布特征,构建创新的收益率分布因子,重点介绍一种基于收益率噪音偏离正态分布的新型因子(nosgs),并检验其有效性与样本外表现。
- 核心论点:
- 传统基于收益率高阶矩(如均值、偏度、峰度等)的分布因子具有有效的选股能力。
- 传统高阶矩不能完全刻画收益率分布的全部特征,市场潜在信息尚未被充分挖掘。
- 本文创新构建基于收益率噪音偏离正态分布程度的因子nosgs,该因子在统计和实证分析中都显示出极强的选股能力和特异性,且样本外表现优异,多空组合收益率和夏普比率均领先。
- 评级与目标价:本报告未涉及明确的股票评级或目标价,属于因子研究与策略开发专题。
- 作者意图:传达高频数据中蕴含的丰富分布信息可以帮助挖掘新的alpha因子,提出并验证收益率噪音偏离正态分布的新型高频因子的有效性,填补传统高阶矩因子表现上的空白,借由新因子提升多空交易策略的收益稳定性与风险控制能力。[page::0,3]
---
2. 报告结构深度解读
2.1 前情回顾与高频数据介绍(第3页)
- 关键点:
- 介绍兴证金工团队前期高频研究基础《高频漫谈》(2022-01-04发布),涵盖高频因子构造、高频风险识别等。
- 高频数据来源为中国上交所和深交所Level-2行情数据,重点基于分钟K线数据,未来还将继续探索更高粒度数据。
- 区分高频指标中四类信息:分布信息、时间信息、关联信息、另类信息,本文关注分布信息。
- 推理依据:把握数据粒度和频率的重要性,分钟数据足够详细,又便于构建因子,且体现多头短线特征。
- 重要数据:Level-2行情数据时间维度由分钟K线到秒级乃至逐笔,代表不同交易信息丰富度。
- 结论:聚焦基于分钟收益率序列的分布特征发掘新因子,是高频研究的核心切入点,为后续策略构建储备数据基础。[page::3]
2.2 日内收益率分布(第3-4页)
- 核心观点:股票日内收益率分布(239个分钟样本点/天)蕴含丰富信息,传统以均值、标准差、偏度、峰度等高阶矩为代表因子表现良好,但未能完全利用所有分布特征。
- 挑战:
- 样本稀疏性:流动性较差股票成交不足,价格填前值,导致较强自相关性,影响分布特征估计。
- 非独立同分布:正负收益率具有异质特征,上下行波动率不同,形成跳跃现象,刻画更复杂。
- 数据示例与图解:
- 图1:某股票日内分钟收盘价走势。
- 图2:该股票收益率的分钟收益率分布直方图近似中心峰态,具有少量极端值。
- 图3:流动性差股票分钟价格呈现离散且跳跃特征。
- 图4:上下行波动率(RV+与RV-)分布差异明显,反映非对称波动性。
- 结论:需要克服上述估计难题,采用非参数估计和数据异构化方法,才能有效提取收益率的分布信息构建因子。[page::4]
2.3 收益率分布因子定义(第5-7页)
- 定义逻辑:
- 利用聚合函数对收益率序列进行重排(Reorder),得到对时间无敏感的指标g,保证因子仅反映分布信息,不涉及时间序列信息。
- 高频因子生成分两步:构造日内指标并进行时序操作转换成因子值F。
- 因子数据处理与变换:
- 对带偏度的因子值,优先采用Box-Cox变换降低偏度,若无效则采用截面序位排序处理确保正态性。
- 因子值进行市值和行业中性化后,采用信号加权计算多空收益率,结构化权重分配在多头和空头组合中。
- 调仓策略:日频调仓为主,兼顾周频和月频调仓,月频采用时间衰减加权,周频等权,日频采用等权窗口平均(窗口长度设置为15天)。
- 回测范围:2014年8月31日至2021年8月31日。
- 风险管理:特别强调剔除涨跌停限制股对因子回测结果的影响,保证因子表现的准确性与稳健性。
- 结论:构建高频收益率分布因子需要严密的统计处理和业务规则保障,为后续具体因子构造提供技术框架。[page::5,6,7]
2.4 常见收益率分布因子及表现(第7-8页)
- 介绍:汇总并量化展示7个传统收益率分布因子,如均值、方差、偏度、峰度和上下行波动率,定义详见表2。
- 回测表现(表3 & 图5):
- 这些因子均具备显著的因子IC,均值因子IC最高达5.86%,多空组合夏普比率绝大部分高于8。
- 多空收益中空头贡献居多,表明空头策略对收益驱动占优。
- 相关性分析(表4):
- 与已实现方差相关的因子时序相关性高,主要共享波动率风险。
- 结论:常见收益率分布因子有效,但存在风险敞口集中于波动率,且因子间同质相关较高,亟需发掘低相关性和新颖视角的因子。[page::7,8]
2.5 收益率噪音偏离因子(nos)构造及投资逻辑(第8-10页)
- 投资逻辑:
- 根据Laplace定理,如果多个微小因素叠加,测量误差应近似正态分布。
- 对于流动性好股票,单笔买卖带来的收益率影响微乎其微,噪音接近正态。
- 对于流动性差股票或被大额投资者影响的股票,噪音偏离正态,意味着大资金影响了价格形成,带来额外风险与风险溢价。
- 因此,nos因子度量收益率序列中噪音偏离正态程度,与大额投资者活动和流动性密切相关(表5证实因子与风险溢价同向关系)。
- 构造方法:
- 假设股价服从几何布朗运动,用分钟收益率序列构造噪音残差:标准化收益率残差(\( et \)),理论为 \( N(0,1) \) 。
- 评价噪音偏离正态的方法采用两种统计量,分别命名为nosgs及nossw。两者相关性高(0.906),均稳定有效,本文重点选用表现更优的nosgs。
- 因子表现(表6 & 图6、7、8、9):
- nosgs因子在日度调仓下多空年化收益61.10%,夏普比率高达9.50,最大回撤9.8%。
- 因子IC均值5.12%,且IC累计稳健增长,显示其预测能力持续。
- 十分位分层结构明显,多头和空头均匀对称,组合构建合理。
- 结论:nos
2.6 nos因子特异性与正交化处理(第11页)
- 特异性分析(表7):
- nosgs与其他常见收益率分布因子时序相关性普遍低于0.5,仅与峰度因子(rtnkurt)相关性约0.7。
- 可能因二者都对因子时序收益波动敏感,体现部分类似风险因子。
- 正交化处理及表现(表8 & 图10、11):
- 将nosgs对rtnkurt正交化后得到新因子nosgsn。
- 正交后的新因子多空年化收益仍高达44.87%,多头年化16.75%,且保持优秀的夏普比率和IC水平。
- 结论:nos因子拥有良好的特异性,能够为组合带来实际的超额收益,减少因子共线性风险,提高策略稳健性。[page::11]
2.7 nos计算实例(日内典型案例)(第12页)
- 样本选取:
- 选取2021年8月31日当日nosgs值最高与最低的两只股票进行收益率分布对比分析。
- 高nosgs个股北巴传媒(600386.SH):
- 换手率3.20%,收涨4.65%。
- 分钟收益率分布显示正收益主要集中在11:15-11:25内,涨幅显著且集中,表明大额资金介入。
- 流动性差,价格涨幅集中且交易活跃度不高,符合nosgs高值特征。
- 低nosgs个股长城科技(603897.SH):
- 换手率4.54%,收跌8.35%。
- 收益率分布接近正态,极端变动稀少,不显示大额资金干预。
- 流动性好且价格连续波动,符合nosgs低值特征。
- 结论:实例生动验证nosgs度量流动性及大额投资者影响的有效和直观性,为因子理论提供直观市场表现支撑。[page::12]
2.8 nos因子样本外表现跟踪(第13-14页)
- 背景:更新因子数据至2022年1月14日,将2021年9月至2022年1月作为纯样本外验证期。
- 发现(表9 & 图16-19):
- 样本外多空年化收益率提升至67.05%,夏普比率12.72,最大回撤仅1.33%,表现优于样本内。多头与多空组合无明显回撤。
- 全时段表现依然稳健,夏普比率约9.63,IC均值超过5%。
- 重要意义:在市场波动较大且私募量化基金发生较大回撤的环境下,nosgs因子稳健跑赢大盘,体现了其强的实战应用价值。
- 结论:样本外数据验证了因子良好的泛化能力和风险控制水平,强化了因子投资价值的信心和长期可用性。[page::13,14]
2.9 总结(第14页)
- 全文系统描述了基于分钟收益率分布构造高频因子的思路,包括传统高阶矩因子和创新的nos因子。
- nosgs因子在多频率调仓、样本内外均表现优异,夏普比率高企,且具有特异性,显示其信息增量和策略实用性。
- 因子与传统分布因子相关性低,有助于构建多因子组合。
- nos因子桥接了高频流动性特征和大额投资者活动,挖掘了常规方法未捕获的风险溢价信号。
- 后续有望借助更高频数据丰富因子库。
- 总体上,高频因子的研究开始进入实用化阶段,公共基金也逐步采纳,展现广阔发展前景。[page::14]
2.10 附录—涨跌停股对因子影响的实证分析(第15-16页)
- 背景:涨跌停股票对高频因子回测结果影响显著,为确保因子表现真实有效,必须剔除涨跌停股。
- 示例因子:累计收益率偏度因子cprsw。
- 发现:
- 未剔除涨跌停数据时,因子表现良好,年化收益45.28%,夏普6.21。
- 剔除涨跌停后,因子回测表现显著下滑,多头收益甚至转负,因子失效(图21、22)。
- 含义:说明涨跌停限制导致的极端流动性和价格行为对高频因子影响强烈,须谨慎处理股票池,增强因子普适性及稳健性。
- 结论:系统剔除涨跌停股是高频因子研究的必要步骤,以避免结果虚假繁荣。[page::15,16]
---
3. 图表深度解读
图1-4(日内分钟价与收益率分布,流动性差股票)
- 图1展示某股票一天内的分钟收盘价,显示价格有序波动,为收益率计算提供基础。
- 图2为该股票一分钟收益率的直方图,聚焦中心区,揭示大部分分钟收益率在零附近徘徊,但存在尾部极端变动。
- 图3为流动性差股票的分钟收盘价走势,呈现不连续和价格跳跃,反映其成交不足与价格僵化状态。
- 图4上下行波动率RV+与RV-分布不同,体现了正负收益率非对称性,支持采用更复杂统计量。
- 数据意义:以上图表揭示了不同股票流动性及价格行为的多样性,强调传统统计方法不足以全面刻画收益率分布。[page::4]
图5(常见收益率分布因子多空净值变化)
- 多空净值曲线显示不同分布因子自2014年以来累积的多空收益。
- rtnkurt(峰度)因子多空净值增速最好,累计收益较高,反映峰度捕捉到重要的收益率极端信息。
- 其他因子如方差、均值累计表现较为平稳和线性增长,多空夏普均较好。
- 图示支持:传统因子有较强选股能力但增长平缓,说明传统因子潜力有限,需要创新因子。
- [page::8]
图6-9(nos因子回测与组合表现)
- 图6显示nos因子多空净值稳步上升,回撤较小,稳健性强。
- 图7的IC柱状图与累计IC曲线显示因子信息比率稳定在正区间,持续贡献Alpha。
- 图8十组分位等权组合净值分层显著,验证因子有效性和分层投资价值。
- 图9权重分布均衡,支持多头空头构造合理。
- 整体:图表充分验证了nos
图10-11(正交化后nosgsn因子回测表现)
- 图10展示nosgsn因子多空净值,稳健增涨无明显负向回撤。
- 图11IC图表显示该因子连续累积正信息,备受市场认可。
- 说明:因子正交化提升因子独立性且保持收益,助力多因子组合构建。
- [page::11]
图12-15(nos具体代表股票的分钟走势和收益率分布)
- 图12与图13:600386.SH价格突变和收益率噪音分布集中非对称,说明受大额资金影响。
- 图14与图15:603897.SH价格走势稳定,收益率分布接近正态,符合无大额资金干扰。
- 直观演示因子理论解释,验证因子信号的经济意义。[page::12]
图16-19(nosgs全时间与样本外多空净值和IC)
- 图16和图18展示多空净值在样本内和样本外均有良好累积收益,样本外更优,回撤显著减少。
- 图17和图19显示IC及累计IC稳定在正区平台,表明因子在最新市场环境中仍具有预测能力。
- 表明因子具备良好的实时实战适用性。[page::13,14]
图20(不同偏度条件下累计收益率分布示意)
- 反映累积收益率偏态对价格区分的影响,左偏股票具有更高价格区间,投资者会追捧从而带来超额收益。
- 为后续偏度因子cprsw的理论基础。
- [page::15]
图21-22(cprsw因子回测剔除涨跌停影响)
- 图21显示不剔除涨跌停股票时,cprsw因子各分位组合净值稳步走高,且分层明显。
- 图22剔除涨跌停后净值表现普遍下滑,分层变差,2018年以来显著趋于失效。
- 警示对异常股价限制的处理。[page::16]
---
4. 估值分析
本报告主要致力于因子构造与效能验证,未涉及个股或标的的直接估值分析,因此无相关估值模型讨论。
---
5. 风险因素评估
- 模型风险:模型结果基于历史数据样本测算,市场环境剧烈变动时存在模型失效风险。
- 数据风险:高频数据质量受限于撮合机制,数据缺失或异常对因子有效性构成挑战。
- 交易限制风险:涨跌停等交易限制影响因子效用,需剔除受限个股以避免偏误。
- 流动性风险:因子高度依赖流动性特征,极端流动性变化可能扰乱因子表现。
- 超额收益可持续性风险:因子表现良好,但alpha可能随着行情环境变化或因子拥挤而衰减。
- 缓解策略:因子中性化调整、正交处理、多频率调仓测试、样本外验证、剔除涨跌停风险股票等均为有效缓冲措施。
- 总体风险提示明确,符合量化因子研究的行业标准。[page::0,15,17]
---
6. 批判性视角与细微差别
- 潜在偏见:报告主要基于单证交市场的Level-2行情与分钟数据,模型对其他市场结构或更加高频粒度数据下的适应性尚未充分验证。
- 假设稳健性:归纳假设如独立同分布和几何布朗运动局限现实,流动性影响和大额资金行为模式复杂。
- 数据时效性风险:尽管有近期样本外检验,但2022年之后重大事件可能影响因子表现未涵盖。
- 因子依赖结构:nos与峰度因子相关较高,需在多因子组合中关注共线性问题。
- 回撤和波动率:尽管整体表现优秀,最大回撤达10%左右,说明仍需风险管理。
- 涨跌停股票剔除的必要性:报告详细验证了该处理对因子有效性的重大影响,显示因子研究的严谨态度。
- 总体而言,报告谨慎严谨,理论和实证验证相辅相成,但对市场环境变化的应对仍有待加强。[page::0,6,15,17]
---
7. 结论性综合
本文系统深入地阐述了基于高频数据挖掘日内收益率分布特征,特别是求取收益率噪音偏离正态分布程度的创新因子nosgs的开发与测试,提供了以下关键洞见:
- 传统收益率分布因子基于高阶矩,虽然有效但相关性高且缺乏新颖性和全局信息覆盖。
- 利用Laplace定理和市场微观结构理论,构造反映大额资金是否影响价格形成的噪音偏离因子,能揭示资产的流动性风险和潜在风险溢价。
- nos
- 因子特异性强,与传统因子相关系数多低于0.5,经峰度因子正交化后仍保有稳定收益。
- 以实例方式展示了因子对典型高低流动性股票的区分能力,增强因子直观理解。
- 样本外验证(2021年9月至2022年1月)显示因子收益率和夏普比率显著提升,并大幅压缩最大回撤,证明其在当下市场环境具备领先性和抗跌能力。
- 涨跌停股票的剔除对因子表现影响巨大,严谨样本筛选是高频因子研究必须环节。
- 综合来看,nosgs作为高频研究开拓出的创新因子,具有理论驱动力与实际交易表现的双重优势,具备成为投资组合中重要alpha来源和风险管理工具的潜力。
- 本报告不仅丰富了高频因子构建范式,提升了中国市场基于分钟数据的选股策略质量,也为未来进一步运用更细粒度数据、考虑更多另类分布特征奠定了坚实基础。
---
全部相关图表引用说明
- 图1-4:高频分钟价和收益率分布示意,展示样本稀疏和非IID性(第4页)。
- 表2、表3:列出常见收益率分布因子定义与回测表现(第7-8页)。
- 图5、表4:常见因子净值和时序相关性,为创新因子研究提供背景(第8页)。
- 表5:nos因子与大额投资者、流动性关联(第9页)。
- 表6,图6-9:nos
- 表7、表8,图10、11:nos因子正交化及其保持良好表现(第11页)。
- 图12-15:代表性个股nos_gs值和对应收益率分布与价格走势(第12页)。
- 表9,图16-19:nos因子样本内外多空净值、IC及回撤表现(第13-14页)。
- 图20:累计收益率与偏度示意,为偏度因子提供定性基础(第15页)。
- 表10,图21-22:涨跌停影响偏度因子回测表现(第16页)。
以上图表为报告论证提供数据支持和直观展示,清晰说明因子构造与表现的科学逻辑。[page::4,7,8,9,10,11,12,13,14,15,16]
---
综上所述,本报告通过细致的理论构建与严谨的实证检验,突显了收益率噪音偏离正态分布作为高频选股因子的研究价值和实操潜力,验证了在中国A股市场基于分钟级数据提炼创新alpha因子的可行路径,展现了向高频量化策略深度迈进的信号与动力。[page::0-16]
建议关注该类因子在实际策略组合中的融合及风险管理机制,密切监测因子表现的市场适应性和稳定性,以充分发挥高频因子研究的投资回报优势。
---