`

选股因子系列研究(七十六)——基于深度学习的高频因子挖掘

创建于 更新于

摘要

本文基于上交所逐笔委托数据,构建了以"RNN+NN"为核心框架的深度学习高频因子,使用30分钟级别的164条高频指标序列挖掘周度高频因子。回测发现该因子周均IC约0.08,周度胜率超过80%,选股效果显著且与传统低频因子相关性低。引入该因子对中证500指数增强组合年化超额收益提升至32%,较基础模型提升6%。此外,GRU模型在参数更少且训练更快的条件下,表现与LSTM相当,且在沪深300内单独训练的因子表现更优。本文提出的深度学习高频因子为传统多因子组合带来稳定超额收益,具备较强应用价值与进一步研究潜力[page::0][page::4][page::6][page::8][page::12][page::13]

速读内容

  • 高频因子挖掘背景及意义 [page::0][page::4]

- 上海证券交易所自2021年6月起提供逐笔委托级别数据,丰富了高频数据源。
- 传统基于逻辑构建的高频因子难以挖掘更高Alpha,高频数据显示了较佳选股潜力。
  • 深度学习模型架构与数据说明 [page::4][page::5][page::6]

- 采用循环神经网络(RNN)结合全连接神经网络(NN)搭建“RNN+NN”框架,主要使用GRU和LSTM两种RNN结构对比。
- 输入包含164个30分钟频率的高频指标序列,滚动覆盖过去20个交易日,预测未来5个交易日收益。
- 训练过程每5日迭代一次,损失函数为-1*IC,采用ADAM优化器,设置随机失活及早停防止过拟合。
  • 高频因子单因子表现及分组超额收益 [page::6][page::7]


- 原始因子周均IC达0.08,周度胜率超80%,周均多空收益约1.5%。
- 因子组间收益呈单调性,空头组合显著负收益,表现出较强空头能力。
- 2021年收益较弱,提示需做因子正交化处理。
  • 因子正交化及稳定性表现 [page::7][page::8][page::9]




- 与传统低频因子及逻辑高频因子相关性极低(一般在-0.2至0.2之间)。
- 正交因子周均IC约0.07,周度胜率提升至90%,保持显著且稳定的选股能力。
- 2021年9月至11月期间因子多空净值保持震荡上升趋势,显示良好的抗风险能力。
  • 分市场范围训练表现对比 [page::9][page::10][page::11]

- 沪深300内单独训练因子周均IC约0.05,周度胜率约70%,多空收益约0.7%。
- 沪深300内训练因子分年度收益优于全市场训练,尤其是在分化严重的年份表现明显。
- 中证800指数内单独训练因子和全市场训练因子表现相近,正交因子多头组合部分参数下更优。
  • GRU与LSTM模型性能对比 [page::11][page::12]

- LSTM+NN模型虽结构更复杂、参数更多,但周度选股能力未显著优于GRU+NN。
- 鉴于GRU训练效率及简洁性,推荐以GRU+NN作为模型切入点。
  • 引入深度学习高频因子的中证500指数增强模型收益提升 [page::12][page::13]

- 引入深度学习高频因子后,基础模型年化超额收益由26%提升至最高32%,最大提升6%。
- 2021年YTD收益最高可达30%,远超传统模型的10%-16%区间。
- 投资组合约束包括个股权重偏离、常规及高频因子敞口、行业中性及换手率限制,调仓假设交易成本为千分之三。
  • 结论与风险提示 [page::13]

- 深度学习高频因子具备稳定的周度选股能力,与传统因子低相关,且在多细分市场均表现良好。
- 未来研究将进一步细化模型,提升提取高频数据序列信息的能力。
- 风险主要来自市场系统性风险、资产流动性风险及政策变动。

深度阅读

报告详尽分析报告



---

一、元数据与概览


  • 报告标题: 选股因子系列研究(七十六)——基于深度学习的高频因子挖掘

- 作者及联系方式:
- 冯佳睿(证书号S0850512080006,电话021-23219732,邮箱fengjr@htsec.com)
- 袁林青(证书号S0850516050003,电话021-23212230,邮箱ylq9619@htsec.com)
  • 发布机构: 海通证券研究所

- 发布日期: 2021年12月(由上下文推断)
  • 研究主题: 利用深度学习模型中的循环神经网络(RNN)架构,从高频交易数据中挖掘具有预测未来股价能力的选股因子,并测试其选股能力和增强指数组合收益的效果。

- 报告核心论点:
- 高频交易数据中蕴含丰富Alpha(超额收益信号),传统基于逻辑的高频因子挖掘空间有限。
- 采用深度学习RNN(主要是GRU和LSTM)处理30分钟级别的多维高频序列数据,挖掘周度高频因子。
- 深度学习高频因子在周度层面显示显著的选股能力,IC(信息系数)和胜率表现突出。
- 高频深度学习因子与传统低频因子和已有高频因子相关性低,正交处理后依然保持显著效能。
- 将该深度学习因子引入中证500指数增强模型后,可以持续提升组合年化超额收益约6个百分点。
  • 风险提示: 市场系统性风险、流动性风险及政策变动风险可能影响策略表现。

本报告核心诉求是展示高频深度学习因子的实际选股能力和对股票增强策略的贡献,鼓励探索AI技术在量化选股中的应用创新。[page::0,4,12,13]

---

二、逐节深度解读



2.1 引言及研究背景(第4页)


  • 关键论点:

上交所自2021年6月起推出逐笔委托数据,丰富了高频数据维度,拓宽了投资者对高频因子的研究空间。
传统高频因子多基于经验逻辑和简单统计指标(如一阶、二阶矩),挖掘潜力逐渐饱和。随着调仓频率缩短,短周期选股需求上升,数据序列的信息提取方法需创新。
本文提出使用RNN结合全连接神经网络,从164个30分钟频率高频指标构成的时序特征中挖掘高频Alpha。
  • 逻辑支撑:

RNN适合处理时间序列数据;深度学习能自动发现复杂非线性关系,克服传统方法在因子构建中的局限。
  • 数据解释:

高频指标涵盖分钟K线、3秒盘口委托、逐笔成交数据,能细致剖析买卖行为和大单动向,数据维度丰富。
  • 模型设定:

滚动使用过去20个交易日数据预测未来5个交易日收益,生成周度因子。采样频率较细,输入矩阵维度为股票数×164(指标)×160(时间点)三维张量。
该节为后续模型与实证奠定基础,明确问题和技术路径。[page::4]

2.2 循环神经网络模型简介(第4-5页)


  • 核心内容:

介绍RNN、LSTM和GRU模型的结构差异及特点。
  • 详细说明:

- LSTM包含输入门、遗忘门、输出门,能缓解梯度消失,适合捕捉长时序依赖。
- GRU结构更简单,仅含更新门和复位门,训练更快,参数更少。
- 文中采用两者训练深度因子,结果比较详见后续章节。
  • 技术解析:

公式细致展示门控机制的计算过程,帮助理解数据如何依次影响状态传递与更新。
该部分为非技术读者提供必要的神经网络基础知识,强调深度学习模型优势和适用性。[page::4,5]

2.3 数据说明与模型细节(第5-6页)


  • 数据构成:

164个30分钟频率指标,覆盖行情(收益、波动)、成交(金额、数量)、盘口挂单变动(委买委卖),和主动买卖行为,尤其强调大单行为特征。
  • 建模方法:

采用滚动训练,每5日迭代一次,训练集为最近5个月数据,验证集为第6个月,模型训练取5次结果均值,防止单次训练波动。
  • 超参数:

测试了GRU层数(1层、2层),隐含状态大小(10、50),NN层数(1层),神经元(10个),优化器用Adam,损失函数为负IC,防止过拟合采用dropout和早停。
  • 意义:

采用深度卷积与循环网络,自动提取高维时序特征,无需预先人工设计复杂指标组合,克服传统因子设计的低效和局限。
此处详细说明模型框架和训练策略,体现科研严谨度。[page::5,6]

2.4 单因子测试结果(第6-11页)



2.4.1 原始因子绩效(第6-7页)


  • 关键指标:

- 周度信息系数(IC)约0.08,表现显著。
- 周度胜率超过80%,说明因子能稳定正向预测未来收益。
- 周均多空收益约1.5%,其中多头超额0.5%,空头超额-1.0%。
  • 图表解读(图1):

按因子值排序分10组,收益呈单调上升趋势,1组(低值组)明显负收益,表明因子有明显的区分力和空头预测能力。
  • 年度表现:

部分年份表现优异,2021年因子收益有所下降,推测因子受风格因子和低频因子影响较大。
因此,建议后文进行因子正交处理。
该章节验证了深度学习因子对市场回报的预测效能,作为核心的实证基础。[page::6,7]

2.4.2 因子正交化处理及绩效(第7-9页)


  • 相关性分析(表3):

深度学习高频因子与传统低频因子及逻辑构建的高频因子相关性极低(绝对值多在0.2以下),意味着该因子捕获了新的信息。
  • 正交化操作:

对行业、市值、反转和换手等因子进行剔除影响,得到“正交因子”。
  • 正交因子表现(表4、图2):

- 周均IC约0.07,胜率进一步提升至90%。
- 多空收益约1.4%,多头超额约0.46%。
- 组间收益离散度依旧明显,空头组表现出显著负收益。
  • 时间序列表现(图3、图4,2021.09-2021.11)

多空净值稳定上升,无明显回撤,虽多头组合短期出现回撤但快速修复,显示出因子的稳健性和收敛性。
正交化后因子的选股能力体现出更高的纯净度和稳定性,为后续组合应用奠定基础。[page::7,8,9]

2.4.3 不同训练范围下表现比较(第9-11页)


  • 比较维度:

全市场训练因子与分沪深300和中证800指数样本分别单独训练的因子在对应指数的表现。
  • 结果总结:

- 沪深300内单独训练因子周度IC约0.05,胜率70%,多空收益0.7%,略次于全市场训练因子整体数据量和丰富度。
- 年度多头超额收益中,沪深300内训练因子表现更为优异,尤其近几年市场分化显著。
- 对中证800指数域的正交因子,两种训练方式周度IC表现相近,部分超参数设置下中证800内训练因子略优。
  • 结论:

针对特定指数域训练因子能挖掘更适配该领域的Alpha,但样本数较少风险也加大,需扩大训练窗口和样本量缓解过拟合。
此节体现模型训练样本范围与泛化能力的权衡考量。[page::9,10,11]

2.4.4 GRU vs LSTM模型比较(第11-12页)


  • 测试发现:

LSTM+NN因子表现基本相当于GRU+NN,未见明显提升。
  • 原因推测:

LSTM结构复杂参数更多,在该应用中并未因此挖掘出更多Alpha,可能因超参数限制或训练样本规模所限。
  • 推荐方案:

基于GRU+NN模型因结构简洁、训练效率高,作为深度学习高频因子挖掘的切入口更为实用。
  • 小结:

1)深度学习高频因子具备显著周度选股能力且低相关。
2)正交处理后性能稳定提升。
3)针对指数域单独训练有利收益表现。
4)GRU+NN优于或等效LSTM+NN,因参数更少效率更适合实际应用。
本节验证模型架构选择的重要性和效果,为后续实盘应用提供指导。[page::11,12]

2.5 深度学习高频因子在中证500增强组合中的应用(第12-13页)


  • 组合基础:

以中证500指数为基准,构建包含传统低频因子(市值、估值、波动等)以及多种成交行为因子的多因子轮廓。
  • 深度学习因子引入方式:

- 通过回归法计算因子溢价,预测未来超额收益。
- 结合传统因子与深度学习高频因子构建权重优化组合。
  • 风险约束机制:

- 单只个股权重偏离基准不超过1%-2%。
- 因子敞口限制(低频±0.5,高频±2.0)。
- 行业严格中性。
- 换手率限额控制在30%-50%。
  • 优化目标:

最大化预期超额收益。
  • 性能表现(表14-15):

- 全区间年化超额收益从26%提升至32%,提升约6个百分点。
- 2021年年内收益提升显著,最高超额收益达30%。
  • 结论:

深度学习高频因子为传统多因子组合带来实质增强收益,且在加入风险约束的现实条件下依然表现稳定。
本节将方法论直接落地策略,验证实用价值和收益提升潜力。[page::12,13]

2.6 总结与风险提示(第13页)


  • 研究结论:

通过深度学习模型挖掘高频因子,获得了可靠的周度选股能力且与传统因子信息互补。
针对特定股票池单独训练可进一步提升收益表现,建议适当调整训练窗口以缓解过拟合风险。
嵌入常规多因子中证500增强组合,可显著提升组合年化超额收益,证明因子增量信息价值。
  • 风险提示:

特别强调市场系统性风险、资产流动性风险及政策变化对策略结果的影响,提醒投资者注意风险管理。
  • 后续工作方向:

表明后续仍将继续优化模型细节并丰富高频因子体系,目前篇幅限制未能详尽展开模型超参数等细节。
综上,报告期望搭建一个探索深度学习与高频交易数据结合的模型基础,助力量化选股突破瓶颈。[page::13]

---

三、图表深度解读



图1:深度学习高频因子分组超额收益分布(原始因子,2014.01-2021.11)(第6页)


  • 描述:

按因子值大小将样本股票分10组,展示各组相对市场周度超额收益。曲线为多种GRU+NN超参数组合表现。
  • 趋势:

- 组间超额收益呈明显单调递增关系。
- 低因子值组多为显著负收益,如第1组约-1%。
- 高因子值组收益最高接近0.5%-0.6%。
- 曲线形态趋同,各超参数组合表现差异较小。
  • 意义:

说明该因子具备良好的分层选股能力,能有效区分高收益与低收益股票,且因子效能具有一致性和稳定性。
  • 局限性:

为原始因子,未剔除风格因子影响,2021年表现出现衰减风险提示需正交处理。
图1 深度学习高频因子分组超额收益分布(原始因子)
[page::6]

图2:深度学习高频因子分组超额收益分布(正交因子,2014.01-2021.11)(第8页)


  • 描述:

同图1方法,但因子已剔除行业、市值、反转和换手影响后的正交因子,反映纯净Alpha能力。
  • 趋势:

- 组间单调上升趋势依旧明显,可见因子在不同组的超额收益差距显著。
- 空头组负收益较大,顶组超额收益稳定正向。
- 各超参数组合差异仍小体现模型稳定性。
  • 意义:

净化后的因子效能依然显著,反映了深度学习因子捕捉的非传统风格和周期独立性Alpha信号。
图2 深度学习高频因子分组超额收益分布(正交因子)
[page::8]

图3:深度学习高频因子多空净值(正交后,2021.09-2021.11)(第9页)


  • 描述:

展示正交后因子多空组合净值变化,视为策略累积超额收益走势。
  • 趋势:

- 多空净值稳步攀升,幅度在1.0至1.12区间,目前略有波动但整体向上。
- 四个超参数组合表现均较为接近,代表模型具有稳健性。
  • 意义:

短期选股策略根据该因子实现稳定正超额收益,凸显因子在市场震荡中的抗风险和适应性。
图3 深度学习高频因子多空净值
[page::9]

图4:深度学习高频因子多头超额(正交后,2021.09-2021.11)(第9页)


  • 描述:

更聚焦多头组合超额净值走势。
  • 趋势:

- 多头收益虽有一段时间回撤(2021年9月中至10月中),约下跌3%。
- 随后迅速回升,形成震荡上行走势,体现因子短期波动性但恢复快速。
  • 意义:

反映实战中多头组合面临一定波动风险,但整体收益趋势依然乐观,展现因子在市场情绪变动中的适应能力。
图4 深度学习高频因子多头超额
[page::9]

---

四、估值分析



报告主体并无传统意义上的公司估值分析,而是高频因子选股能力及其在指数增强组合中的表现。其“估值”可理解为因子表现的统计学效能估计和组合超额收益估计。
  • 采用信息系数(IC)作为因子预测能力的核心衡量指标。

- 以多空收益率、多头超额收益作为投资回报表现指标。
  • 通过对比不同训练范围、超参数和模型架构,估计因子稳定性与提升空间。

- 组合超额收益增幅(最高+6%年化)可看作指标模型投入实际投资组合的估值回报体现。
  • 优化组合约束设置及风险控制保证估值结果的现实可操作性。

本报告在估值角度,重点展现了深度学习高频因子对组合Alpha的边际贡献。
[page::12,13]

---

五、风险因素评估


  • 市场系统性风险: 市场宏观波动可能导致因子失效或回撤。

- 资产流动性风险: 高频交易数据依赖市场流动性,低流动性股票可能导致因子预测精度下降,影响调仓执行效率。
  • 政策变动风险: 政策监管、交易规则变更可能影响高频交易行为及数据特征,间接影响因子表现。

- 过拟合和样本外风险: 分指数样本单独训练因子面临样本容量不足及过拟合风险,建议增加训练窗口或数据频率应对。
  • 模型结构及参数限制: 目前测试的超参数数量有限,模型结构调整可能带来因子不稳定或过度复杂。

报告仅提示风险,并未提供具体缓释策略,投资者应结合风控体系理性操作。
[page::0,13]

---

六、批判性视角与细微差别


  • 潜在偏见:

- 报告强调深度学习模型带来的显著收益改进,但依赖过去数据回测,未来市场环境变化可能导致因子失效。
- 训练样本和超参数选择较为有限,模型参数空间未充分探索,可能限制因子潜力的全面展现。
  • 技术细节有限:

报告未详细说明164个高频指标的具体构造方法,限制了模型复现性和实际应用中风险把控的深入理解。
  • 正交处理建议明显,但方法可再细化:

尽管正交处理效果明显,报告未详细披露正交具体技术细节及可能对IC稳定性的潜在影响。
  • 训练样本范围权衡:

缺乏具体扩展训练窗口和调整频率后因子稳定性验证,单一区间回测存局限性。
  • GRU与LSTM比较中提到超参数或结构调整空间,但缺具体方案。

总体而言,报告科技含量突出、逻辑清晰,但深度技术细节略显简略,投资者应用时需注意实证结果的稳健性及模型调整的灵活性。
[page::5,11,12,13]

---

七、结论性综合



本报告系统论述了基于深度学习的循环神经网络(主要为GRU+NN)从丰富的30分钟频率高频指标序列数据中提取选股因子的完整流程及效果。核心贡献在于:
  • 高频深度学习因子创新方法学:突破了传统基于简单逻辑的因子构造瓶颈,利用RNN自动处理序列信息,挖掘多维复杂特征,捕获短周期Alpha信号。

- 显著的单因子表现:因子周度信息系数约为0.08(原始),经正交处理依旧保持0.07水平,周度胜率高达80%-90%,分组收益呈现理想单调特征,空头组负收益显著,多头组合超额收益稳定正向。
  • 因子低相关性特征:与常规低频因子和传统高频因子相关性甚低,说明因子提供了有效的新信息源,有利于多因子组合的多样化和风险分散。

- 训练范围对收益影响显著:通过全市场及沪深300、中证800等不同截面训练发现,针对特定指数训练能实现最佳定制效果,但需注意样本容量带来的过拟合风险。建议增加训练时间窗口或提升数据频率。
  • GRU模型优于LSTM在当前条件下的表现,因参数少训练更快,推荐投资者采用GRU+NN开始探索。

- 组合实证:将深度学习高频因子嵌入中证500指数增强组合后,组合年化超额收益从26%提升到32%,在2021年表现尤为优异,验证因子的实际投资价值。
  • 模型风险提示明确,强调宏观市场与流动性风险可能导致因子表现波动,提醒投资者合理风控。


图表深解突出:
  • 图1/2显示因子分组收益特性强且稳定;

- 图3/4揭示短期多空净值平稳,回撤修复迅速,实盘应用的潜力可观。

总体来看,报告提出的“RNN+NN”深度学习高频因子开发路径,为量化投资者在高频数据洪流中提炼Alpha开辟了新思路,展现了深度学习技术在股票短周期选股中的实用性与创新性。尽管模型细节仍有优化空间,但已呈现出较强策略增益潜力。投资者和研究者可基于该框架进一步探索与实践,推动高频量化投资体系现代化。

[page::0-13]

---

备注:



本报告所有结论均严格基于所给报告内容提炼分析,并按照要求添加了页码标识。所列技术术语均结合上下文清晰解释,保证信息完整准确且深入。图片均已以markdown格式指明。

报告