`

选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子

创建于 更新于

摘要

本报告基于26个日频特征与64个60分钟高频特征构建混频深度学习模型,显著提升了因子的周频选股能力,周均IC达到0.10,TOP 10%组合年化超额收益达30%以上。通过实际应用于中证500及1000指数增强组合,年化超额收益分别可达16%-25%。此外,利用正交层生成多个相互正交因子集,拓展深度学习模型在量价因子挖掘中的应用潜力。报告详细对比了混频训练与传统线性加权方法、不同调仓周期及风险控制参数对因子表现和策略绩效的影响,数据充分支持投资应用的有效性和稳健性[page::0][page::4][page::6][page::8][page::10][page::13][page::15]。

速读内容

  • 混频模型架构与训练流程[page::4]:


- 以26个日频量价特征与64个60分钟高频量价特征作为输入,分别通过两个GRU模块提取信息后,融合在MLP中输出最终预测。
- 训练周期延长至1200个交易日,滚动迭代,预测未来5日和10日收益率,损失函数采用MSE。
- 采用早停机制与5次模型重复训练取均值提升稳定性。
  • 周频选股能力显著提升[page::5][page::6]:

| 预测标签 | 成交价假设 | IC均值 | 年化ICIR | 胜率 | Rank IC均值 | 因子自相关 | TOP10%换手率 |
|---------|-------------|--------|----------|-------|-------------|-----------|--------------|
| 未来5日 | T0收盘 | 0.120 | 9.236 | 92% | 0.116 | 0.53 | 64% |
| 未来10日| T1开盘 | 0.103 | 7.793 | 88% | 0.107 | 0.66 | 56% |

- 因子换手率较高,达到约60%。交易成本计入后,超额收益略有下降但仍较为可观。
- 因子与主流风格类与波动率类因子存在中等相关性,与基本面因子关联较低。
  • 因子在不同选股空间表现[page::7]:

| 选股空间 | 未来5日IC | 未来10日IC | 未来5日超额收益 | 未来10日超额收益 |
|-----------------|------------|------------|----------------|-----------------|
| 全市场 | 0.104 | 0.102 | 29.4% | 30.8% |
| 沪深300 | 0.071 | 0.063 | 25.4% | 22.6% |
| 中证500 | 0.074 | 0.073 | 24.7% | 24.6% |
| 中证1000 | 0.102 | 0.100 | 27.8% | 30.1% |
| 中证800与1000外 | 0.116 | 0.114 | 29.8% | 31.1% |
| 市值中40% | 0.113 | 0.112 | 26.7% | 29.1% |
| 成交前30% | 0.114 | 0.112 | 35.6% | 37.4% |

- 因子在中证800与1000外及高成交股票中效果最佳,适合市值适中、流动性好的标的池。
  • 混频训练相比传统线性加权方法优势明显[page::8]:

| 因子类型 | IC均值 | 年化ICIR | 胜率 | TOP10%换手率 |
|-----------------|--------|----------|-------|--------------|
| 改进GRU(高频) | 0.064 | 8.269 | 90% | 71% |
| 改进GRU+低频线性加权 | 0.073 | 4.798 | 76% | 57% |
| 混频深度学习因子 | 0.104 | 8.418 | 91% | 64% |

- 混频模型由于非线性整合,显著提升IC及超额收益,且总体指标处于较优水平。
  • 不同调仓频率表现对比[page::9]:

- 双周及月频持有期延长导致IC上升,但超额收益下降近50%,交易成本考虑后仍低于周频。


- 调仓路径对收益表现有一定影响,路径选择需谨慎。


  • 混频因子构建的指数增强组合表现优异[page::10][page::11][page::12][page::13]:

- 中证500组合年化超额收益在15%-22%区间,存在个股偏离和行业偏离约束时,收益降至10%-15%。
| 路径 | 无成分股约束年化收益(未来5日) | 有90%成分股约束年化收益(未来5日) |
|------|--------------------------|----------------------------|
| 最高 | 22% | 15% |
| 当前 | 16% | 10% |

- 中证1000组合年化超额收益25%左右,成分股约束影响较小,表现稳定。
- 组合最大回撤均较低,信息比率良好,月度胜率维持60%以上。
  • 量化因子扩展应用:生成多个正交因子集合[page::13][page::14][page::15]:


- 在MLP与输出层间加入正交层,得到32个因子,两两相关性均值低于0.15,基本实现因子正交。
- 这些正交因子IC在0.03-0.04之间,TOP10%组合年化超额收益为5%-12%。
- 加入行业、市值、BP正交约束后,因子IC和多头收益明显下降,显示约束带来的选股能力折损。
- 此方法有助于挖掘多个互补增量因子,增强多因子模型的泛化能力。
  • 风险提示[page::0][page::15]:

- 关注市场系统性风险、资产流动性风险、政策变动风险及因子潜在失效风险。

深度阅读

报告详尽分析——《选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子》



---

1. 元数据与概览


  • 报告标题:《选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子》

- 作者及分析师:冯佳睿、袁林青,均为海通证券金融工程研究团队成员,具备证券投资咨询执业资格。
  • 发布日期:2023年

- 发布机构:海通证券研究所
  • 研究主题:结合高频与日度量价数据,通过深度学习模型提取Alpha因子,用于股票的量化选股及组合增强。

- 核心论点
- 以26个日频特征和64个60分钟高频特征为输入,利用深度学习模型(主要为GRU与MLP结合)训练混频因子。
- 混频因子在2017年以来表现出稳定且显著的预测能力,周均IC达到0.10,能带来30%以上的年化超额收益。
- 不同股票类型对因子表现有差异,中等市值且成交金额较高的股票因子表现最佳。
- 引入低频数据并采用非线性加权策略提升了因子效果,直接混频训练得到的因子优于简单加权复合。
- 构建中证500及1000增强组合,年化超额收益稳定,其中中证1000组合收益更高且对成分股约束敏感度低。
- 采用正交层可实现多因子生成,因子正交性好,选股多头组合仍有5%-12%的年化超额收益。
  • 风险提示:市场系统性风险、资产流动性风险、政策变动风险及因子失效风险。


总体,报告试图向读者传递一个深度学习与多频数据结合能够有效提升股票选股预测性能并落地于指数增强策略的创新信息,表现出深度量化研究的最新进展和应用框架。 [page::0]

---

2. 逐节深度解读



2.1 混频模型的训练流程


  • 关键论点

- 构造26个日频量价特征(如开盘、最高、最低、收盘价及成交额与量)和64个高频60分钟数据特征(分钟K线及深度盘口、逐笔成交信息等)。
- 高频数据描绘日内微观结构,日频数据描绘更长期、整体趋势的量价特征,两者互补。
- 采用两个GRU(门控循环单元)模块分别处理两种频率的时间序列特征,再由MLP(多层感知机)整合用于预测股票短期收益。
- 训练周期设定较长:训练1200个交易日,验证集120日,模型每120交易日迭代一次,预测未来5日、10日收益率。
- 使用均方误差(MSE)作为损失函数和早停机制提升训练效果,多次训练取平均降低模型不确定性。
  • 数据完整性说明:由于历史高频数据不完整,2013年5月之前高频特征填0,彰显对数据质量的把控。

- 技术解析
- GRU是一种能捕捉时序依赖的递归神经网络单元,适用于时间序列特征提取;
- MLP用于整合两组GRU输出,执行非线性映射生成最终因子值。
  • 图表分析

- 图1展示该网络结构,层次分明,简化计算与信息整合得到平衡。

该流程体现了将不同频率数据有效融合、分层特征提取与非线性整合的深度学习最新思路。[page::4]

---

2.2 混频深度学习因子的选股能力



2.2.1 周频选股能力


  • 关键论点

- 混频因子对未来5日和10日收益的预测有较高稳定性和准确率,周均IC接近0.10,胜率超85%。
- 未来5日因子换手率更高但自相关性低,更适合高频短线策略。
- 预测标签经过正态化调整后,Rank IC提升,但其他关键指标出现权衡,后续研究仍沿用原始标签。
  • 数据解读

- 表1显示不同成交价假设下,未来5日因子TO收盘IC最高0.12,胜率92%;未来10日因子稍低为0.103,胜率88%。
- 表2经过正态化后的Rank IC,最高0.136,胜率90%,意味着排序预测能力提升。
  • 解释指标

- IC (信息系数):因子预测收益与实际收益的相关系数,越高说明因子预测能力越强;
- Rank IC:排序相关系数,反映因子对收益排名的预测准确度;
- ICIR (信息比率):IC均值对IC波动率的比率,衡量因子稳定性;
- 胜率:预测正确比例,高于50%说明具有正向预测能力;
- 换手率及自相关:换手率60%左右,提示因子活跃度,换手率高则交易成本需控制。
  • 结论:混频因子展现出较为优异且稳定的周度选股能力,尤其未来5日因子适合活跃交易,未来10日因子稳定性更强。[page::5]


2.2.2 因子相关性及分年度表现


  • 因子与市值、BP(市净率)、反转、换手率、波动率等传统因子相关性分析显示,混频因子与反转、换手率及波动率相关性较高(绝对值0.2-0.3),与基本面因子ROE、SUE相关性极低(<0.1),说明混频因子主要捕捉量价和短期动量信息。

- 年化超额收益表现:
- 表4和5显示,未考虑交易成本时,TOP 10%组合年化超额收益可达30%-34%,扣除两边千三交易成本后仍有17%-21%,验证因子实际择时与选股有效性。
- 2023年以来表现略有下降,未来10日因子多头表现更强。
  • 分路径测试显示,不同调仓路径对收益影响显著(尤其TOP100组合超额收益差距超10%),反映市场可交易性与调仓时点的敏感性。

- 不同股票池表现差异:
- 中证800和1000外股票表现最佳,沪深300成分表现最弱但仍有正向超额收益;
- 中市值40%及高成交额30%分组中因子表现最好,因子适配性优于极大或极小市值股票;
- 这为量化投资者筛选合适投资标的提供明确指引。

综上,混频因子具有良好稳定性和市值、成交量匹配度。[page::6][page::7]

2.2.3 混频训练与线性加权对比


  • 对比三类因子:改进GRU高频因子、残差注意力高频因子、以及它们与低频量价因子IC加权复合,报告显示:

- 合并加权能提升IC和Rank IC,但ICIR和胜率下降;
- 直接混频训练(即高频与低频特征输入深度学习模型)的因子IC最高,指标均优;
- 多头组合超额收益提升明显,年化超额收益提升约10-20个百分点。
  • 表8与9详细量化对比,体现非线性整合相较线性叠加的优势。


此结论表明混频深度学习模型在数据整合策略上具有明显领先优势,值得量化研究者借鉴。[page::8]

2.2.4 双周频和月频选股能力


  • 持有期延长后,IC指标显著提升,说明因子在较长窗口下更稳定;

- 但超额收益大幅下降,月频调仓超额收益仅15%,约较周频减半;
  • 说明高频因子适合短期活跃调仓策略,交易成本控制后更具优势。

- 图2-5展示多频率、多路径、不同选股范围的超额收益表现,凸显了调仓频率和调仓路径选择对策略收益的影响。

高频量价特征与活跃交易策略关联明显,换仓节奏选择是收益实现的关键环节。[page::9]

---

2.3 用混频因子构建指数增强组合


  • 建立基于混频因子预测的中证500与中证1000增强组合,周频调仓。

- 中证500组合严格风险控制:
- 市值、估值中性,行业偏离有限,换手率限制30%;
- 全市场选股,享受较宽松成分股权重分配。
  • 中证1000组合风险控制较宽松,允许估值、市值暴露。

- 优化目标为最大化预期收益$\max \sum \mui wi$,其中$\mui$为超额收益预测,$wi$为权重。
  • 结果:

- 中证500组合年化超额16%-22%,未来5日标签组合表现优于未来10日;
- 引入90%成分股权重限制后收益降低至10%-15%,显示约束影响明显;
- 中证1000组合收益更高,24%-27%,且成分股权重限制几乎无影响,反映因子在中证1000中选股能力强。
  • 分年度收益风险指标表明,组合稳定性较好,信息比率优异,2021年最大回撤较大,2022年后因子表现略弱。

- 多路径调仓比较披露策略收益受路径影响,表现波动显著。
  • 表11至16详列收益与风险数据,清楚展现动态表现。


整体看,混频因子适合指数增强股票组合构建,尤其适合中证1000及全市场选股,表现超越传统因子体系。[page::10][page::11][page::12][page::13]

---

2.4 模型扩展


  • 生成多因子正交集

- 在MLP与输出层间加入正交层,限制因子间线性相关性,实现多因子的正交化。
- 训练得到32个因子,相关性绝大多数<0.15,良好正交。
- 多因子周均IC在0.03-0.04,TOP 10%组合年化超额收益5%-12%。
  • 与行业、市值、BP正交的因子集生成

- 在保证内部因子正交的同时,额外约束因子与行业、市值、BP因子正交。
- 因子与基本面因子相关性显著降低到0.04-0.06。
- 该约束下因子选股能力被削弱,IC均值下降至0.015-0.025,年化超额收益明显走低。
  • 启示

- 正交层作为转换工具,是因子生成技术创新;
- 行业与基本面因子正交虽然可提供纯Alpha因子,但会伴随选股能力下降,优化权衡。
  • 图6和7、表17和18分别展示因子相关矩阵和选股能力数据。


该部分体现了作者对深度学习模型功能扩展及因子设计理念的深入研究与创新尝试。[page::13][page::14][page::15]

---

3. 图表深度解读


  • 图1(混频模型架构)

- 展示了日度量价与高频量价分别输入两个GRU,输出整合后得到因子预测。
- 结构清晰,体现模块化设计,便于独立调优不同频率输入的特征提取。
  • 表1-2(周频选股能力)

- 明确呈现不同频率因子的IC、RankIC和胜率等指标,未来5日因子整体优于10日因子。
- 正态化调整对Rank IC提升明显,表现了标签处理对指标的影响。
  • 表3(因子相关性)

- 指出现有混频因子与传统低频换手率、反转等因子相关度高;
- 与基本面因子的低相关性强调因子独立Alpha属性。
  • 表4-5(年化超额收益)

- 展现因子多头组合年化超额收益,扣费前后差异突出,交易成本对因子活跃换手的影响显著。
  • 表6-7(路径及选股空间差异)

- 反映调仓路径与选股区间对因子选股效果的敏感性,股票池越广因子表现越优。
  • 表8-9(混频与别因子比较)

- 量化地对比了各模型因子的选股能力及收益差异,突出混频模型优越性。
  • 表10与图2-5(多频率与路径分析)

- 揭示换仓频率降低因子IC提升但收益降低,说明换仓节奏权衡。
- 路径差异图显示调仓时点选择对收益影响较大。
  • 表11-16(增强组合绩效)

- 详细披露中证500/1000增强组合的年化超额收益、波动性与回撤。
- 权重限制对中证500组合影响明显,对中证1000组合影响较小。
  • 图6-7与表17-18(多因子正交分析)

- 矩阵图与表格揭示因子间及与行业市值BP的相关性分布。
- 表17显示非正交因子选股能力优于受正交约束限制的因子集。

总体而言,图表丰富且详实,数据与论点紧密结合,强化了对深度学习混频因子特性的理解与实证验证。[page::4-15]

---

4. 估值分析



报告主题聚焦因子生成与组合增强,未涉及传统公司估值或市场估值模型内容。因此无相关估值分析章节。

---

5. 风险因素评估


  • 市场系统性风险:宏观经济、市场波动对因子表现的影响,可能导致因子预测失效。

- 资产流动性风险:高换手率因子在流动性不足时交易成本放大,影响投资收益。
  • 政策变动风险:政策调整可能引发市场结构变化,致因子失效。

- 因子失效风险:因子长期被市场消化或环境改变,导致预测性能下降。

报告仅以点带面提示上述风险,未详细说明缓解措施及发生概率,提示投资者需审慎评估相关风险敞口。[page::0][page::15]

---

6. 批判性视角与细微差别


  • 报告充分展示混频因子有效性,但忽略了宏观经济周期、行业轮动等非量价因素对回测结果影响的深入讨论。

- 交易成本仅以双边千三估算,现实环境中大额交易滑点可能更高,因子高换手率风险偏低估。
  • 路径敏感性大表明调仓时点选择对实际落地影响显著,实际操作中还需考虑市场冲击成本、流动性风险。

- 多因子正交后因子性能下降,提示在降低因子相关性的同时存在效能权衡,正交处理应谨慎。
  • 目前模型仅考虑历史行情数据,未纳入宏观因子、情绪指标等其他维度,或可提高模型稳健性。

- 编排中存在少许文本、表格格式乱序、表达略显冗长现象,但不影响核心内容理解。

总体,报告在数据处理和模型创新上表现突出,但在策略实际应用细节探讨及风险表述上尚有提升空间。

---

7. 结论性综合



本文通过构建一个结合26个日频与64个高频60分钟特征的混频深度学习模型,创新性地融合不同频率的量价信息,获得了稳定且显著的Alpha因子。具体表现为:
  • 混频深度学习因子自2017年以来展示出周均IC达0.10的优秀选股能力,TOP 10%及TOP 100多头组合年化超额收益分别达到30%和35%以上,体现出该因子体系在实际量化投资中具备显著价值。

- 因子在不同股票池中表现存在差异:中证800和1000之外及高成交额股的表现最佳,规模适中市值股票因子效果更佳,为实际投资者提供了优化选股范围的参考。
  • 与传统深度学习高频因子相比,融合低频数据并实现非线性整合可以进一步提升IC及收益表现,突破单一频率因子限制。

- 构建基于混频因子的中证500和中证1000指数增强策略,过去多年间实现年化超额收益分别约16%-22%和25%左右,稳健性与表现均优。
  • 应用正交层技术,能生成多达32个相互正交的增量因子,尽管IC及超额收益相较整体因子有所降低,但为多因子体系建设和Alpha多样性提供了可行路径。

- 交易成本对高换手率因子收益影响显著,需要在实际应用时密切关注流动性与成本控制。
  • 风险提示涵盖系统性风险、流动性风险、政策风险及因子失效风险,提醒投资者在策略部署时保持警惕。


综上,该报告不仅提供了技术先进的多频深度学习选股因子框架,更基于扎实的实证分析验证了其实际应用价值和潜力,对量化投资与因子研究领域具重要参考价值。[page::0-15]

---

参考图片示例


  • 图1 混频模型网络架构示意图

  • 图2 双周频因子在不同选股空间中的TOP 10%组合年化多头超额收益

  • 图3 月频因子在不同选股空间中的TOP 10%组合年化多头超额收益

  • 图4 双周频因子在不同调仓路径上的TOP 10%组合年化多头超额收益

  • 图5 月频因子在不同调仓路径上的TOP 10%组合年化多头超额收益



---

本文解析覆盖全文主要章节、核心论点、关键数据、图表细节及风险评估,结合深度金融分析视角和策略实务要求,期望为业界和投资人构建一个清晰、全面且深入的研究认知路径。

报告