`

选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子

创建于 更新于

摘要

本报告基于日频量价和高频量价数据的混频深度学习模型,构建了新的选股因子,实现了对股票未来5日和10日收益的有效预测,周均IC达到0.10以上,TOP 10%多头组合年化超额收益逾30%。混频因子在不同市值与成交金额区间表现优异,结合深度学习模型扩展,可生成多组正交因子,为指数增强策略提供坚实支撑,相关指数增强组合年化超额收益在15%-25%之间波动[page::0][page::4][page::6][page::7][page::8][page::10][page::11][page::14][page::15]。

速读内容


混频深度学习因子构建及训练流程 [page::4]


  • 结合26个日频和64个60分钟频特征,使用双GRU+MLP网络架构。

- 使用2017年起1200日训练集与120日验证集,目标预测未来5日与10日收益,损失函数为MSE。
  • 模型连续训练5次取平均,增强稳定性。


因子选股能力与表现评估 [page::5][page::6][page::7]


| 预测标签 | IC均值 | 年化ICIR | 周度胜率 | 因子自相关性 | TOP10%组合换手率 |
|----------|--------|----------|----------|--------------|-----------------|
| 未来5日 | 0.104 | 8.418 | 91% | 0.53 | 64% |
| 未来10日 | 0.102 | 7.853 | 87% | 0.66 | 56% |
  • 周度选股效果显著,未来5日因子表现更优但换手率更高。

- 交易成本影响显著,扣费后超额年化收益降至约20%。
  • 因子与反转、换手率等量价因子相关性偏高,基本面因子相关性较低。

- 不同指数成分股及市值、成交金额区间表现差异明显,成交金额高的股票IC和多头年化超额收益最高。

混频训练与线性加权复合因子对比 [page::8]


| 因子类别 | IC均值 | 年化ICIR | 胜率 | 自相关性 | 换手率 |
|------------------------|--------|----------|------|----------|--------|
| 改进GRU(高频) | 0.064 | 8.269 | 90% | 0.37 | 71% |
| 残差注意力(高频) | 0.064 | 7.970 | 88% | 0.54 | 60% |
| 改进GRU+低频量价复合 | 0.073 | 4.798 | 76% | 0.66 | 57% |
| 混频深度学习因子 | 0.104 | 8.418 | 91% | 0.53 | 64% |
  • 混频因子IC最高,效果明显优于单纯高频模型与线性加权复合模型。

- 多头组合年化超额收益高于其他模型10-20个百分点。

高频因子调仓频率与收益关系 [page::9]



  • 周频换仓因子年化超额收益高达30%,双周频与月频因子收益约为15%。

- 换仓频率越低,因子选股能力虽有所提升,但超额收益大幅下降。
  • 换仓路径对收益影响明显,不同路径年化收益差异达4%-7%。


混频因子构建指数增强组合 [page::10][page::11][page::12]


| 组合 | 成分股约束 | 年化超额收益区间 | 2023年初至今超额收益 |
|-------------|-----------|------------------|----------------------|
| 中证500增强 | 无 | 15%-22% | 0.7%-5.6% |
| 中证500增强 | 90%约束 | 10%-15% | -2%至1.5% |
| 中证1000增强| 无 | 18%-27% | 0.6%-4.7% |
| 中证1000增强| 90%约束 | 18%-25% | 2.2%-5.9% |
  • 严格约束会显著影响中证500组合收益,影响中证1000组合较小。

- 组合信息比率稳定,月度胜率大多维持在60%-90%区间。

模型扩展:正交因子集合生成与多因子挖掘 [page::13][page::14][page::15]


(示意图同第4页)
  • 在MLP与输出层间增加正交层,可生成32个相互正交因子。

- 因子截面相关性绝大多数低于0.15,且可与指定行业、市值和BP因子正交。
  • 32因子周均IC在0.03-0.04,TOP10%组合超额收益5%-12%。

- 加入行业、市值和BP正交约束后,因子平均IC下滑至0.015-0.025,选股能力减弱。

风险提示 [page::0][page::15]

  • 市场系统性风险

- 资产流动性风险
  • 政策变动风险

- 因子失效风险

深度阅读

分析报告:《选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子》



---

1. 元数据与概览


  • 报告标题:选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子

- 作者与团队:分析师冯佳睿、袁林青,海通证券研究所金融工程研究团队
  • 发布日期:2023年(报告未具体标注,但基于引用时间推断2023年初)

- 主题:利用深度学习模型,融合高频(60分钟)与低频(日度)量价特征,研究混频选股因子的构建及其在中国股票市场中的选股能力和实证表现。

核心论点:
该报告基于此前深度学习挖掘高频Alpha因子的工作,首次将日频量价特征融入高频数据训练,延长模型训练和迭代周期,通过双GRU架构及多层感知机(MLP)融合两类因子,成功构建出综合性能优异的混频深度学习因子。该因子自2017年以来在不同预测周期(5日和10日)及不同选股空间表现出稳健、显著的选股能力,多头组合年化超额收益高达30%-35%的水平,且通过构建中证500及中证1000指数增强组合,验证了策略的实用价值。

风险提示涵盖市场系统性风险、资产流动性风险、政策变动风险、因子失效风险。[page::0]

---

2. 逐节深度解读



2.1 相关研究与背景



报告引用了前期的多篇系列研究,逐步探讨了深度学习在高频因子挖掘中的应用与优化,说明此次报告是在该系列研究基础上,通过引入日度因子扩展的后续工作,旨在实现信息的多尺度融合与增量 Alpha 的挖掘。[page::0]

---

2.2 混频模型的训练流程(第1节)


  • 特征构建

共使用26个日频量价特征(如开盘价、收盘价、成交额等)和64个高频60分钟特征(含分钟K线、盘口快照、逐笔成交等微观数据)输入深度学习框架。低频侧侧重日度收益、交易活跃度与流动性,高频侧关注日内微观结构、委托量变化及大单交易行为。
由于逐笔成交数据存在可得性问题,2013年5月以前的高频特征被填充为0,以保证时间序列一致性。
  • 模型架构

采用双GRU结构(GRU-1处理日频量价,GRU-2处理高频量价),彼此输出被MLP融合,输出单一预测值。该设计简化了多频数据的时序特征提取,有效融合不同时间尺度信号。
  • 训练细节

- 训练期为1200个交易日,验证集取后120日,2017年至今每120个交易日迭代一次模型。
- 输入为过去60个交易日的日频与60分钟高频序列。
- 标签采用未来5日和10日收益的股票表现预测。
- 损失函数为均方误差(MSE),采用早停机制防止过拟合。
- 同组超参训练5次,推理结果取均值提高稳定性。

这一训练流程延续以往高频模型日频换仓的操作习惯,在引入低频数据的同时,有效延长训练与迭代周期,增强模型泛化能力。[page::4]

---

2.3 混频因子的选股能力(第2节)


  • 周频选股能力(2.1小节)

未来5日标签的因子表现最佳,周均IC高达0.10以上,胜率超过85%,ICIR(信息比率)及Rank IC水平均优良,换手率约0.6。未来10日因子IC稍低且自相关性较高,呈现更低换手率。
对预测标签强制正态化调整后,Rank IC显著提升但IC和ICIR表现略有下降,表明正态化优化了排序效果但略损信息效率。
表1和表2数据详细展现了不同成交价假设(t0收盘、t1开盘等)下因子选股指标的稳健性。
  • 相关性分析(表3)

混频深度学习因子的截面相关性显示,与传统低频量价因子(换手率、反转、波动率)相关度较高(绝对值约0.2-0.3),与风格类及高频因子相关度中等(0.1-0.2),与基本面因子ROE、SUE相关极低(<0.1)。
说明混频因子有效补充了经典低频因子的Alpha信息,但与基本面信号互补性好。
  • 多头组合回测(表4、表5)

TOP10%和TOP100组合在多路径均值上,年化超额收益分别约30%和35%。在扣除双边千三交易成本后,净收益仍超过20%,体现因子实际可交易性。
2023年初起多头表现有所下滑,尤其是未来5日因子表现受成本影响较大。
  • 调仓路径影响(表6)

不同调仓路径对TOP100组合年化超额收益影响显著,最高与最低路径差异超过10个百分点,推测因路径股票可交易状态差异所致。
  • 不同选股空间(表7)

按指数划分,因子在中证800和1000外股票表现最佳,在沪深300成分股表现稍逊但依然稳健。
按市值划分,中等市值股票中因子能力最强;成交额层面,高成交金额股票因子效果最好,IC超0.11,年化超额收益超过35%。
说明因子更适合流动性好及中等市值股票。

总体来看,混频因子融合多频数据,显著提升了选股预测效能,且对交易成本有一定耐受力,具有较强实际落地价值。[page::5-7]

---

2.4 混频训练与线性加权对比(2.2小节)


  • 对比设置

先前高频深度学习因子(改进GRU及残差注意力)加权低频因子混合,vs. 本文混频深度学习单一模型。
  • 表现对比(表8、表9)

将低频与高频因子线性复合虽提升IC和Rank IC,但ICIR、胜率和换手等指标下降。
混频深度学习模型直接融合两频特征后,IC显著提升,指标均处优质水平,且年化超额收益领先传统模型10-20个百分点。
  • 结论

混频深度学习模型通过非线性融合实现信息增益,较线性加权方案更优,表明深度模型能捕捉更复杂的量价关系,提升Alpha提取能力。

此部分定量数据严密,强调混频训练是提升高频与低频因子融合效果的关键路径。[page::8]

---

2.5 双周频和月频选股能力(2.3小节)


  • 换仓频率对因子表现影响

IC在换仓频率降低(双周、月度)时反而有所上升,可能反映更长周期信号稳定性更强。
但超额收益大幅衰减——月频持有期的多头年化收益约15%,远低于周频的30%。且考虑交易成本后,短周期高频因子仍更适用。
  • 不同选股空间的月频与双周频回测(图2-5)

与周频相似,股票流动性和指数成分对因子表现影响存在同样趋势。
不同调仓路径上因子收益波动较大,反映实际操作对组合结果影响显著。

总结为高频混频因子适合相对短周期策略,而长周期换仓可能牺牲收益表现换取稳定性。[page::9]

---

2.6 混频因子在指数增强组合中的应用(第3节)



对中证500和中证1000构建基于混频深度学习因子的周度增强组合,设置行业、市值、估值等多重约束及调仓权重限制。
  • 中证500增强组合(3.1小节,表11-13)

在无成分股权重限制时,年化超额收益达15%-22%;引入90%成分股权重限制后降至10%-15%。
2023年初组合表现仍为正,但明显逊色于历史均值,可能因因子拥挤或市场环境变化。
年度风险控制指标如跟踪误差、信息比率、最大回撤等均在合理范围内。
  • 中证1000增强组合(3.2小节,表14-16)

超额收益波动较中证500更小,年化收益约18%-27%,且权重限制对收益影响甚微,因子在中证1000内表现优于中证500成分股。
组合风险指标合理,2022年及以后收益有所下降,与市场变化一致。

整体增强组合回测验证了混频因子的实用性,尤其在流动性较好、覆盖面更广的中证1000市场中表现突出。[page::10-13]

---

2.7 模型扩展(第4节)


  • 目标与方法

利用深度学习模型中间正确设置正交层,实现输出多组互相正交因子。进一步,可实现与行业、市值、价值因子(BP)等已知因子集合正交,增加信息增量与投资组合构建的灵活度。
  • 结果展示(图6、图7及表17、表18)

- 在普通正交条件下,32个因子之间的绝对相关性均值均低于0.15,证明正交层有效分离因子。
- 这32个因子周均IC在0.03-0.04,TOP 10%组合年化超额收益5%-12%;表现次于单因子混频模型,但展示出多因子框架潜力。
- 当加入与行业、市值、BP正交约束后,因子IC降至0.015-0.025,收益明显受限,表明过多正交约束会降低因子有效信息。

此部分体现了模型的灵活性和多元化技术应用,可针对投资策略需求生成差异化因子库,提升组合构建多样性及抗风险能力。[page::13-15]

---

2.8 总结(第5节)


  • 混合26个日频和64个60分钟高频特征,构建融合多时间尺度的深度学习因子,并采纳延长训练周期和两条GRU路径+MLP整合架构,形成新的混频因子。

- 该因子自2017年以来在5日和10日预测标签下展现显著的周度选股能力,年化超额收益达30%-35%。
  • 不同指数、中证800与1000外的区间体现了更为优异的表现,针对不同市值和流动性股票的因子适用性也明晰。

- 相比线性加权低频与高频因子混合,深度学习混频模型表现更优,且提高了多指标综合评价。
  • 用混频因子驱动的指数增强组合表现稳健,特别是在破解成分股约束下,中证1000组合收益仍保持高水平。

- 模型可扩展至生成多正交因子集合,实现复杂投资需求。
  • 风险提示包括系统性风险、流动性风险、政策变动风险、以及因子失效风险。[page::15]


---

2.9 风险提示(第6节)


  • 市场系统性风险:市场整体波动可能影响因子表现。

- 资产流动性风险:高换手率可能加重流动性压力,影响交易成本。
  • 政策变动风险:监管或政策调整会影响市场结构和交易行为。

- 因子失效风险:时变性因子可能因市场环境变化而失效。

报告提示投资者需关注上述风险,合理配置策略权重。[page::0,15]

---

3. 图表深度解读



图1 混频模型网络架构示意图(第4页)



图1 混频模型网络架构示意图
  • 该图展示了模型结构:日度量价与高频量价数据分别通过两个GRU模块独立提取时序信息,然后通过MLP融合,输出最终选股因子。

- 结构清晰,体现多频数据并行处理和后端整合的设计理念,有助于提升建模效率与捕捉多尺度信号的能力。

---

图2 双周频因子在不同选股空间中的TOP 10%组合年化多头超额收益(第9页)



图2 双周频因子年化超额收益
  • 展示不同指数范围和市值、成交金额等级中的双周频换仓因子的多头组合表现。

- 中证800与1000以外及高成交金额组表现最好,年化超额收益超过20%以上。
  • 全市场表现介于中间,沪深300略差。趋势与周频选股分布一致。


---

图3 月频因子在不同选股空间中的TOP 10%组合年化多头超额收益(第9页)



图3 月频因子年化超额收益
  • 体现了月频持仓期下因子在不同选股空间的表现,整体收益水平低于双周频,符合部分风险-收益权衡逻辑。

- 相似地,中证800与1000以外、高成交量股票仍然有较好表现。

---

图4 双周频因子在不同调仓路径上的TOP 10%组合年化多头超额收益(第9页)



图4 双周频因子调仓路径影响
  • 图示多调仓路径下组合收益差异,反映路径选股池和调仓节奏对回测结果的实际影响,提示调仓策略设计的重要性。


---

图5 月频因子在不同调仓路径上的TOP 10%组合年化多头超额收益(第9页)



图5 月频因子调仓路径影响
  • 进一步验证对路径敏感性,月频路径更多,表现波动较双周频更明显,导致组合的策略稳定性相对较弱。


---

图6 32个因子的截面相关性绝对值均值(相互正交,2017-2023.03)(第14页)


  • 该矩阵(表格中)显示了32个因子两两间的相关性,均绝对值小于0.15,说明引入的正交层较好地实现了因子间的低相关性,增强了因子多样性。


---

图7 32个因子的截面相关性绝对值均值(与行业、市值和BP正交,2017-2023.03)(第15页)


  • 加入与传统风格因子正交约束,因子内相关性进一步降低,但整体因子IC和超额收益表现有所下降,说明因子空间收缩伴随着信息量的减少。


---

4. 估值分析



该报告核心为因子研究和实证选股策略,并未采用传统股票估值方法如DCF或P/E等。估值相关内容主要围绕因子贡献预测预期收益的价值判断,结合选股能力指标(IC、ICIR、胜率)、组合超额收益与风险指标(最大回撤、跟踪误差、信息比率)评估因子及组合表现。

---

5. 风险因素评估



报告强调以下风险:
  • 系统性风险:市场大环境变化可能导致因子普遍失效。

- 流动性风险:部分股票流动性不足可能影响因子特征表现和组合调整。
  • 政策风险:市场监管和政策调整可能改变市场规则和交易行为。

- 因子失效风险:因子本质为历史数据驱动,未来效力难保证,特别是高频度因子面临敏感度更大风险。

报告未详细讨论概率分布和风险缓释,但通过组合构建的风险控制约束间接体现风险管理策略。[page::0, 15]

---

6. 批判性视角与细微差别


  • 报告整体逻辑严密,数据全面,基于多个频率层面验证因子有效性,充分考虑交易成本和调仓路径对策略效果的影响。

- 对于多频融合,报告处理方式合理,通过双GRU独立提取时序特征并融合,兼顾计算复杂度与模型表现。
  • 但部分实证结果如2023年业绩回落,报告仅作了表层解释(可能因因子拥挤及市场环境变化),缺少深入的结构性分析。

- 模型扩展部分展示了因子正交性设计优点,但也暴露了过分约束带来的显著信息损失,未来策略设计需兼顾信息量和因子多样性的折中。
  • 报告未涉及因子稳定性在不同市场环境下的表现波动或宏观环境敏感性,仍有进一步完善空间。


---

7. 结论性综合



本报告具体且系统地展示了通过深度学习融合高频与日频量价数据,成功构建混频深度学习因子,并验证其在中国股票市场的显著选股能力和投资组合增值潜力。该混频因子在五日和十日收益预测标签下,周日均IC约0.10,多路径回测内TOP 10%组合年化超额收益可达30%左右,TOP 100组合更达35%以上。通过调整选股空间、成交量和市值筛选,因子表现稳健且在流动性较好的中等市值及中证800/1000以外的股票中效果最佳。

与传统高频深度学习因子和低频量价因子线性加权复合相比,混频模型采用非线性联合训练取得更高IC提升和综合指标表现,说明深度学习模型在多频因子融合中具有明显优势。此外,基于混频因子构建的中证500和中证1000指数增强组合,在控制风险约束下,实现了年化15%-27%的超额收益,具备良好的实际应用前景。

模型扩展试图构建多因子正交集合,虽对选股能力有一定牺牲,但提高了因子多样性和策略构建灵活度。报告最后适当提示了市场、流动性、政策及因子失效等风险,为投资者提供预警。

总体而言,该研究深化了深度学习因子多频融合的理论与实务基础,数据充分,实证完备,对量化投资策略设计具有较高参考价值。[page::0-15]

---

参考资料出处


  • 海通证券研究所,冯佳睿、袁林青,2023,选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子。[page::0-15]


---

(报告内容基于海通证券公开数据和研究成果,严谨解读,力求详尽客观。)

报告