`

选股因子系列研究(七十六)——基于深度学习的高频因子挖掘

创建于 更新于

摘要

本文基于RNN+NN模型架构,使用沪深市场30分钟高频指标序列挖掘周度高频因子。深度学习高频因子展现出显著周度选股能力,IC值0.08左右,胜率超80%,且与传统低频因子相关性低。正交处理后因子稳定性提升,沪深300内训练的因子表现更优。LSTM与GRU模型效果相近。高频因子引入中证500指数增强组合,年化超额收益提升至32%,策略表现稳健。风险包括系统性风险、流动性及政策风险 [page::0][page::4][page::6][page::8][page::12][page::13]。

速读内容


高频数据与深度学习模型简介 [page::4][page::5]

  • 以上交所逐笔委托数据为基础,构建164个30分钟频率高频指标序列。

- 采用RNN架构中的GRU及LSTM模型处理高频时间序列数据,输出为周度高频因子。
  • 模型参数设置包括GRU层数(1-2层)、隐藏状态大小(10、50)、NN层数及神经元数量,损失函数为-IC,采用ADAM优化器。



深度学习高频因子单因子选股绩效 [page::6][page::7]


| 模型 | 周均IC | 年化ICIR | 周度胜率 | 周均多空收益 | 周均多头超额 | 周均空头超额 |
|-------------------|--------|----------|----------|--------------|--------------|--------------|
| GRU(10,1)+NN(10) | 0.075 | 5.44 | 81% | 1.35% | 0.37% | -0.98% |
| GRU(50,1)+NN(10) | 0.079 | 5.95 | 81% | 1.48% | 0.44% | -1.04% |
| GRU(10,2)+NN(10) | 0.082 | 5.66 | 81% | 1.46% | 0.41% | -1.04% |
| GRU(50,2)+NN(10) | 0.083 | 6.19 | 82% | 1.54% | 0.49% | -1.05% |


  • 因子组间收益单调递增,空头组合表现明显;说明该高频因子具备良好的收益区分度。



高频因子与传统因子关系及正交化后绩效提升 [page::7][page::8]

  • 高频因子与市值、估值、换手等传统低频因子相关性低(-0.2~0.2),与换手及反转有一定负相关。

- 通过剔除行业、市值、反转和换手因子影响后的正交因子,周均IC约为0.07,胜率提升至90%,多空收益达1.4%。
  • 正交因子阶段性表现更稳定,2021年9月至11月回撤有限且快速修复。






不同指数范围内因子训练效果对比 [page::9][page::10][page::11]

  • 沪深300内单独训练的高频因子周均IC、胜率和多空收益均优于全市场训练,展现更强选股能力。

- 分年度多头超额收益亦明显优于全市场,尤其在市场分化明显年份表现突出。
  • 中证800指数内训练结果与全市场相近,少数超参数组合表现更优。


GRU与LSTM模型性能对比 [page::11][page::12]


| 模型架构 | 周均IC(原始因子) | 周度胜率 | 周均多空收益 | 周均多头超额收益 |
|----------------|------------------|----------|--------------|------------------|
| GRU+NN | 0.075~0.083 | 81%-82% | 1.35%-1.54% | 0.37%-0.49% |
| LSTM+NN | 0.076~0.084 | 80%-83% | 1.36%-1.52% | 0.40%-0.48% |
  • LSTM因引入更多参数未带来显著提升,GRU结构因计算效率高被推荐使用。


高频因子在中证500指数增强组合中的应用效果 [page::12][page::13]

  • 引入深度学习高频因子后,中证500增强组合年化超额收益最多提升6个百分点,最高达32%。

- 超额收益提升在不同调仓换手及基准偏离约束下均显著。
  • 2021年年内表现提升尤为突出,YTD收益提升可达两倍以上。


| 周度单边换手上限 | 基准偏离上限 | 基础模型 | GRU(50,2)+NN(10)最高 |
|------------------|--------------|----------|---------------------|
| 30% | 2% | 26.4% | 31.3% |
| 40% | 2% | 26.2% | 31.9% |
| 50% | 2% | 27.2% | 30.2% |

风险提示:市场系统性风险、流动性风险及政策变动等可能影响策略表现。[page::0][page::12][page::13]

深度阅读

深度学习高频因子挖掘研究报告详尽解析



---

1. 元数据与概览



报告标题:选股因子系列研究(七十六)——基于深度学习的高频因子挖掘
作者:冯佳睿、袁林青
发布机构:海通证券研究所
发布日期:2021年
主题:应用深度学习方法,基于沪深市场逐笔委托等高频数据挖掘选股因子,提升短期股价收益预测能力。

核心论点与评级概要



报告旨在突破传统简单逻辑构建的高频因子选股能力瓶颈,利用循环神经网络模型(RNN)结合全连接神经网络(NN)构建“RNN+NN”框架,从30分钟级别的高频数据序列中提炼能有效预测未来周度收益的深度学习高频因子。实证结果显示该因子具有显著的周度选股能力(周均IC约0.08,周度胜率超过80%),与传统低频因子相关性极低,并在多个指数样本范围内均表现稳定优越。引入此因子后,中证500增强组合的年化超额收益提升明显,最高提升约6个百分点。报告对深度学习模型的具体结构和超参数进行了系统测试和比较,推荐以参数更少、训练效率更高的GRU+NN模型作为研究切入点。风险提示涵盖了市场系统性风险、流动性风险及政策风险。[page::0,4,12,13]

---

2. 逐节深度解读



2.1 引言



报告首先介绍了上交所自2021年6月推出逐笔委托数据之后,高频数据丰富度提升,带来新的量化研究契机。传统的基于简单逻辑的高频因子构建方法已难以挖掘额外Alpha,随着调仓周期缩短,利用机器学习和深度学习提取高频序列中的复杂非线性信息成为重要方向。报告提出,将164个基于分钟K线、3秒盘口挂单和逐笔成交构建的指标,按30分钟频率形成时间序列输入RNN模型,通过RNN提取时序特征,再哈喽NN得到最终因子,实现周度收益预测。

报告明确指出,以往的日月频因子大多是人工降频处理的结果,而RNN能直接处理序列数据,保持了高频数据的时序记忆优势。该方法为高频选股策略提供了全新的技术路径。[page::4]

2.2 循环神经网络模型简介



介绍了RNN的基本构造和优势,重点聚焦两类关键变种:
  • LSTM:长短期记忆网络,包含输入门、遗忘门、输出门,能有效解决普通RNN训练中的梯度消失问题,保留长期记忆。

- GRU:门控循环单元,结构较LSTM简化,只有更新和重置两个门,参数更少,训练更快。

报告用公式清晰表达了两者单元状态更新机制,并说明本文测试了基于GRU和LSTM结构的“RNN+NN”模型性能差异。[page::5]

2.3 数据说明与模型构建



数据涵盖:
  • 以分钟K线刻画收益、成交量、成交金额等;

- 3秒盘口挂单数据描述委买卖变化;
  • 逐笔成交数据界定主动买卖行为及买单/卖单大小特征。


构建了164条30分钟频率指标序列,模型输入为20交易日30分钟频率序列指标维度的3D张量,目标预测未来5交易日股票收益。训练采用6个月窗口滚动,每5天重新训练,训练验证分离(5个月训练,1个月验证),同一超参数多次训练取均值防止过拟合。损失函数基于负IC,优化器为ADAM,采用mini-batch(batch=1000),加入随机失活和早停策略遏制过拟合。

超参数组合涵盖GRU层数(1层、2层)、隐含状态大小(10、50)及NN层数和神经元数目,表明模型架构较为简洁,旨在实现高效训练。[page::5,6]

---

3. 深度学习高频因子单因子测试



3.1 原始因子绩效



通过表1展示不同超参数模型组合的周度选股能力指标:

| 模型 | 周均IC | 年化ICIR | 周度胜率 | 周均多空收益 | 周均多头超额 | 周均空头超额 |
|----------------------|--------|----------|----------|--------------|--------------|--------------|
| GRU(10,1)+NN(10) | 0.075 | 5.44 | 81% | 1.35% | 0.37% | -0.98% |
| GRU(50,1)+NN(10) | 0.079 | 5.95 | 81% | 1.48% | 0.44% | -1.04% |
| GRU(10,2)+NN(10) | 0.082 | 5.66 | 81% | 1.46% | 0.41% | -1.04% |
| GRU(50,2)+NN(10) | 0.083 | 6.19 | 82% | 1.54% | 0.49% | -1.05% |

各模型均表现出显著的预测信号,周均IC超过0.07,多空组合周均收益约1.5%,多头超额收益接近或超过0.4%,空头超额收益在-1%左右,表现优异且胜率高(80%以上)。图1进一步显示,因子分组超额收益呈现明显单调提升,尤其空头端负向收益深刻,体现因子显著区分能力。

3.2 年度收益表现与因子相关性



表2分年度展示因子多头超额及多空收益,全区间表现稳定,部分年份波动较大,尤2021年表现减弱。报告提示原始因子可能与常规风格因子相关,建议进一步正交化。

表3显示深度学习高频因子与传统低频因子及逻辑构建高频因子相关性均较低(绝对值均低于0.2),除与换手及改进反转因子有小幅负相关,支持因子信息独立性。

结合此,作者进行了行业、市值、反转和换手因子的正交处理。

3.3 正交因子绩效



正交后,表4显示因子周均IC约为0.07,周度胜率提升至90%,周均多空收益接近1.4%,多头超额收益约0.46%,依然保持显著的周度选股能力。图2显示因子分组收益单调清晰。

分年度收益表现(表5)显示正交因子在2021年表现明显改善,年化收益稳定在18%-28%之间,多空收益保持56%-68%区间,强化了因子稳定性和独立性。

图3、图4详细呈现了2021年9月至11月的多空净值及多头超额净值走势,整体呈现震荡向上的趋势,尽管10月中出现较大多头回撤,但回撤速度快,因子显现较强的韧性。

3.4 不同范围训练及因子表现对比



针对沪深300和中证800指数样本内单独训练与全市场训练模型性能比较,呈现以下趋势:
  • 在沪深300样本内单独训练的因子周均IC接近0.05,胜率约70%,多空收益约0.7%,明显优于全市场训练模型(见表6)。

- 多头组合年度超额收益方面,沪深300内训练因子多数年份表现优于全市场训练(表7、表9),尤其是在市场分化度高的近几年效果更显著。
  • 中证800样本内训练因子与全市场训练差距较小,综合表现相当(表10-表11)。

- 正交因子在不同样本内训练后的周度IC及年化ICIR也大致相当,沪深300内训练因子稍占优势,建议针对特定选股范围调整训练数据以提升预测性能。

3.5 GRU+NN与LSTM+NN的对比



表12、表13分别展示两种模型架构下的原始因子和正交因子的周度选股能力对比。结果显示,LSTM模型虽结构复杂、参数更多,但对预测性能提升甚微,甚至在部分指标上表现不及GRU。由于GRU结构简洁、训练速度快,报告建议以GRU+NN做为初始框架。

2.5 小结


  • 基于全市场数据训练的深度学习高频因子周度选股能力显著且与传统因子相关性低。

- 通过正交化去除常规低频风格因子影响,因子表现稳定且胜率上升。
  • 沪深300内单独训练的因子在分年度收益表现上优于全市场训练,尤其在市场分化明显年份。

- GRU+NN结构因训练效率和效果优势被推荐先行试验,LSTM+NN模型后续研究或调整超参数可进一步探索。

整体看来,深度学习方法能够有效捕捉传统简单逻辑未能涉及的隐藏信号,提升了高频因子的有效性和稳定性。[page::6-13]

---

4. 图表深度解读



图1 深度学习高频因子分组超额收益分布(原始因子)



该图通过将股票按因子值排序分为10组,计算各组相对于市场基准的周度超额收益曲线,显示从第1组的显著负超额收益至第10组的显著正超额收益,形态近线性,说明因子具有良好区分能力,尤其第1组空头表现突出,印证了表1收益数据中的多空收益分离情况。

图2 深度学习高频因子分组超额收益分布(正交因子)



经过正交处理后,因子仍保持明显的组间收益单调递增趋势,且整体收益区分度略微收敛,胜率提升至90%,说明剔除传统因子影响后,纯粹的深度学习高频信号依然强劲且更加稳健。

图3 正交高频因子多空净值(2021.09-2021.11)



图中显示从2021年9月起,多空组合净值总体呈稳步上升走势,中间虽有震荡,但无明显回撤,体现因子在近期市场中的持续有效性和稳定性。

图4 正交高频因子多头超额净值(2021.09-2021.11)



显示多头组合的超额净值走势,2021年9月中旬至10月中旬出现较大回撤,之后快速反弹,表明该策略面对市场波动有一定的回撤风险,但恢复速度较快。

图表数据及走势均支持因子优异的短期选股预期能力及其风险收益特征。[page::6-9]

---

5. 估值分析(模型组合增益测试)



通过将深度学习高频因子整合入中证500增强组合,采用回归法对各因子溢价估计未来超额收益,模型优化目标为组合预期超额收益最大化,权重和因子敞口均受约束(个股权重偏离基准不超过1%或2%,因子敞口限制严格)。交易假设采用次日均价调仓,含3‰交易成本,保证结果接近实际可执行策略。

全区间年化超额收益(表14)



引入深度学习因子,模型年化超额收益从基础模型的约26%提升至最高32%,最高提升幅度约6个百分点,显示因子有效带来组合信息增量。不同换手率和基准偏离约束下均实现超额收益增长,表现稳定。

2021年年化超额表现(表15)



2021年引入该因子后表现尤为突出,YTD收益提升显著,最高从基础模型的10%-16%提高至约30%,凸显深度学习高频因子的短期适应力和市场反应速度优势。

整体来看,数据充分佐证深度学习高频因子能提升常规多因子量化策略表现,尤其是在增强组合中证500样本范围及较高调仓频率环境下带来明显收益改进及风险调整表现提升。[page::12-13]

---

6. 风险因素评估



报告提示的主要风险及潜在影响包括:
  • 市场系统性风险:宏观经济变动和突发事件可能导致市场整体调整,策略超额收益或瞬时滑落。

- 资产流动性风险:高频交易依赖市场流动性,流动性不足可能放大交易成本与执行风险,影响因子表现。
  • 政策变动风险:监管政策或市场结构调整可能影响高频因子数据特征及交易规则,造成策略失效。


报告未明确提供具体缓解策略,但通过多频次回测和模型滚动训练方式降低拟合风险,且建议投资者谨慎控制调仓频率及权重偏离。[page::0,13]

---

7. 批判性视角与细微差别


  • 报告多次提及LSTM模型未显著优于简化版GRU模型,可能与超参数调校及模型深度限制有关。后续研究应更深入超参数优化和模型架构创新。

- 沪深300指数内单独训练导致样本规模缩减,可能增加过拟合风险,建议延长训练历史窗口或使用更高频数据以增加样本量。
  • 部分年度因子表现波动较大(如2021年初),反映市场环境变化对模型适应性的考验,暗示深度模型的稳健性需要持续验证。

- 报告仅提供简化的损失函数设计(-1*IC),可能限制因子多样性和泛化能力空间,未来有提升潜力。
  • 由于篇幅限制,报告未深度揭示模型具体训练细节、数据预处理流程及因子构造参数,投资者关注模型透明度及可复制性应当有所警惕。


整体,报告在高频因子深度学习挖掘领域贡献较大,但仍需在模型复杂度调优、数据样本拓展及不同市场环境适应等方面加强研究。[page::11,13]

---

8. 结论性综合



本报告系统构建并验证了基于“RNN+NN”深度学习框架的高频因子,使用164个30分钟频率指标序列,针对中国沪深市场构建周度选股信号。核心贡献包括:
  • 显著周度选股能力:深度学习因子周均信息系数(IC)约0.07-0.08,周度胜率80%-90%,多空组合周均收益1.4%-1.5%左右,充分显示出从高频时序数据挖掘Alpha的强大潜力。

- 因子独立性强:与传统低频因子及基于简单逻辑构建的高频因子相关性较低,增加多因子模型增量收益。
  • 正交处理提升稳定性:去除常规风格因子影响后,因子表现稳定性与胜率均有所提升。

- 训练样本范围差异显著:沪深300内单独训练因子在特定年份及多头超额收益上优于整体市场训练模型,体现训练样本范围对模型表现的影响。
  • GRU模型表现优异:较复杂的LSTM未明显优于GRU,建议首选更简单高效的GRU架构。

- 组合层面体现超额收益:深度学习高频因子融入中证500组合,在交易成本及权重约束下年化超额收益最高提升6个百分点,2021年提升尤为明显,达到30%年化超额收益水平,显示策略实用性与落地潜力。

图表明确支持模型的重要结论:从图1、图2的分组收益曲线及图3、图4的净值走势可见因子平滑显著的多空区分能力及良好稳定性。详尽的年度收益表明因子在波动市场环境中具有一定韧性。

该研究为高频因子开发开辟了基于深度学习的系统化路径,给传统多因子投资策略注入新的活力。报告同时提醒系统性和流动性风险,表现政策敏感性的策略局限,强调投资者运用需谨慎风险控制。

综上,海通证券研究团队成功展示了深度学习技术在高频因子挖掘与应用中的实证价值,值得高频量化投资和机器学习研究者深入关注和推广应用。[page::0-13]

---

参考图表


  • 图1 深度学习高频因子分组超额收益分布(原始因子,2014.01-2021.11):

- 图2 深度学习高频因子分组超额收益分布(正交因子,2014.01-2021.11):
  • 图3 深度学习高频因子多空净值(正交后,2021.09-2021.11):

- 图4 深度学习高频因子多头超额(正交后,2021.09-2021.11):

---

总体评价



该报告在量化金融领域结合高频数据和深度学习技术,通过系统的模型构建与回测展示了高频序列Alpha提取的新路径。其理论深度、实证严谨和应用视角均具行业领先水准。未来需关注模型超参数优化、多因子融合以及市场环境变化对模型鲁棒性的进一步研究。报告为高频量化研究和实践提供了重要范式和实证依据。

报告