`

基于循环神经网络的选股模型改进

创建于 更新于

摘要

本报告基于循环神经网络(RNN)选股模型,借鉴混合专家、多堆叠密集连接和多任务学习进行局部结构改进。多专家结构提升了预测稳定性与抗过拟合能力,多堆叠密集连接改善了模型退化并实现多层次特征复用,自定义参数共享的多任务结构促进标签间信息共享与训练效率提升。多个实验对比表明,这些结构改进有效提升模型泛化与训练均衡性,但未实现显著飞跃性提升,且存在一定参数敏感性和环境局限性 [page::0][page::2][page::4][page::13]。

速读内容


基础模型及其缺陷概述 [page::2]


  • 基础模型包含特征输入、提取、决策和标签输出模块,利用GRU和FC层构建。

- 存在三个主要缺陷:预测结果波动大、模型扩容难、单目标独立训练限制。
  • 采集30个日频及高频特征,经标准化和缺失值填充后输入模型。


基础模型训练与性能表现 [page::3]


| 指标 | 当收IC | 次均IC | 多头超额 | 空头超额 | 多空差值 | 换手率 |
|-----------|---------|---------|----------|-----------|----------|---------|
| 中位值 | 10.81% | 10.17% | 21.3% | -44.7% | 65.4% | 47.0% |
| 最大差异 | 0.40% | 0.42% | 3.26% | 4.31% | 5.90% | 3.33% |
  • 回测区间2017年至2023年,模型表现稳定但存在随机波动。

- 简单扩容降低偏差但易引入高方差,GRU扩容风险更大。
  • 国债指数与上证指数对比表现差异明显,反映市场环境波动。


多专家结构改进及绩效表现 [page::5][page::6]


  • 采用4个专家组成的简单聚合和门控聚合两种结构,保持GRU和标签输出不变。

- 多专家结构提升IC表现和分组收益稳定性,简单聚合略优于门控聚合结构。
  • 多专家结构在训练中展示更均衡泛化特征,对专家数量变化不敏感。


多堆叠密集连接结构改进与性能提升 [page::7][page::8]


  • 利用跳跃连接改善多层GRU的特征提取,采纳密集连接防止退化现象。

- 密集堆叠模型展示训练和验证损失均衡,提升泛化能力及样本外IC表现。
| 层数 | 类型 | 当收IC | ICIR | IC胜率 |
|-------|----------|--------|-------|--------|
| 1 | 简单堆叠 | 10.11% | 1.42 | 89.5% |
| 3 | 简单堆叠 | 10.09% | 1.39 | 89.5% |
| 3 | 密集堆叠 | 10.25% | 1.44 | 91.6% |

多任务学习结构改进及多标签训练 [page::9][page::10][page::11][page::12]


  • 引入多跨度标签(5日、10日、15日次均收益)和多处理标签(标准化、排序化、二分类)进行多任务学习。

- 多任务模型包含硬参数共享和自定义参数共享两种策略。
  • 多跨度标签间相关性较高,多处理标签同源信息相关度亦较强。

- 多任务学习通过自定义参数共享,显著提升了IC及分组收益表现,优于硬共享和多模型简单融合。
| 模型类型 | 当收IC | 次均IC | 多头超额 | 空头超额 | 多空收益 | 换手率 |
|------------|---------|---------|----------|----------|----------|---------|
| 多模型融合 | 10.91% | 10.28% | 20.3% | -14.2% | 65.6% | 46.3% |
| 硬共享 | 10.93% | 10.31% | 20.3% | -14.5% | 65.8% | 47.9% |
| 自定义共享 | 11.21% | 10.41% | 21.3% | -15.0% | 67.2% | 48.9% |

总结与风险提示 [page::13]

  • 多专家结构提升模型稳定性与抗过拟合能力。

- 多堆叠密集连接结构实现多层级特征复用,缓解退化。
  • 自定义参数共享多任务结构促进标签间信息共享,提升训练效率。

- 结构改进未带来选股效果爆发性提升,局限于历史数据环境。
  • 模型可能因市场风险及政策不确定性失效,投资需谨慎。

深度阅读

基于循环神经网络的选股模型改进报告——详尽全面分析



---

一、元数据与报告概览



报告标题: 基于循环神经网络的选股模型改进
作者: 陈升锐、王西之
发布机构: 中信建投证券股份有限公司
发布日期: 2023年8月31日
研究主题: 量化金融领域基于循环神经网络(RNN)的选股模型改进,聚焦模型结构的局部优化,包括多专家结构、多堆叠结构及多任务结构三大方向。

核心观点:
本报告基于前期《基于循环神经网络的选股模型初探》成果,识别基础选股模型(基于GRU的序列模型)存在预测波动大、扩容受限及单目标训练局限性三大缺陷,尝试借鉴混合专家(Mixture of Experts, MoE)、跳跃连接(Skip Connection)和多任务学习三大先进结构设计理念,针对特征决策、特征提取和标签输出模块进行局部结构改进。
通过实证测试,报告得出以下主要结论:
  • 多专家结构显著提升预测稳定性,减少过拟合风险;

- 密集连接的多堆叠结构改善模型退化问题,实现深层次特征复用;
  • 自定义参数共享的多任务结构促进标签信息共享,提高训练效率和预测效果。


风险提示强调所有测试基于历史数据,模型算法未来有效性不保证,且市场环境的系统性风险与政策变动风险尚不可控。[page::0,2,13]

---

二、逐节深度解读



2.1 前言与基础模型设计(第2页)



报告首先回顾了基础选股模型结构,核心在于循环神经网络GRU用作特征提取,后接全连接层(FC)做特征决策,最后输出未来10日次均收益预测。输入端包含三大类共30个日频特征,涵盖行情原始指标、分钟统计特征及高频因子,经过标准化和缺失值填补处理,保持数据尺度统一及时序信息完整。全流程设计强调普适性和时序依赖性。[page::2]

作者指出基础模型主要缺陷:
1)预测结果波动大;
2)模型难以扩容;
3)训练受限于单目标标签,不具备多任务协同效应。
受此启发,后续尝试结构改进围绕这三点分别展开。

2.2 基础模型训练及测试设定(第3页)



训练数据以顺序滑动窗口分配,取8年训练+1年验证,数据从2016年末开始每2年更新一次模型。目标函数为单目标反相关系数,迭代上限100轮,设5个固定随机种子保证结果对比公平。测试从2017年1月至2023年7月,预测频率为周度,回测采用IC(信息系数)及分组回测(等权10组排除特殊样本)衡量因子表现。

模型表现上,当收IC约10.81%,次均IC稍低;多头组合超额收益显著(多头空头差达65.4%),组间差异明显,暗示模型具备较好的区分能力和选股效果。随机种子带来的结果波动有限,但仍存在一定不稳定性。[page::3]

2.3 基础模型扩容探索(第4页)



作者试验通过单纯扩容FC层和GRU层的宽度与深度二种方式提升模型容量,观察训练集和验证集损失表现。结果显示扩容能降低模型偏差,理论上提升拟合能力,但亦引入高方差风险,尤其是GRU层的深度扩容更易加剧过拟合,模型泛化变差。该发现指出单一扩容未必解决基础模型的稳定性和扩展性问题,需要结构性改进保障训练均衡和测试稳定。[page::4]

2.4 改进思路分析(第4页)



基于上述挑战,提出局部改进思路:
  • 特征提取模块:使用跳跃连接以增强深层特征复用和防止模型退化;

- 特征决策模块:采用多专家结构提升决策多样性和稳定性;
  • 标签输出模块:采用多任务学习实现标签间信息共享,减轻多模型独立训练的负担。


借鉴Lin et al. (2021)、Sun et al. (2022)、Ong et al. (2023)等前沿研究,全面设计三大多结构改进方案,并对比测试其优劣。[page::4]

---

3. 多专家结构测试(第5-6页)



多专家模型利用多个专家网络分解复杂任务,各专家独立训练且通过门控或聚合机制协同输出,增强模型的专长分工与稳定性。报告分别设计了简单聚合(Expert输出直接加权平均)和门控聚合(基于输入动态分配权重)两个变体结构。结构部署在特征决策模块,保持输入和标签模块不变,确保可比性。

核心结果:
  • 多专家结构相比基础模型,IC表现略有提升(例如当收IC由10.81%升至10.87%-10.93%),尤其绩效稳定性显著改善,最大差异缩小,随机种子效果更加均衡,体现出抗过拟合能力。

- 简单聚合模式在性能和稳定性上略优于门控聚合。
  • 训练阶段多专家结构表现出更高泛化能力,训练/验证损失更均衡,避免单专家因过拟合带来的性能波动。

- 专家数量的敏感性较低,从2至20个专家整体表现稳定,且训练稳定性始终优于基础扩容模型。

这些结果表明多专家结构有效控制模型训练的偏差与方差,提升了决策模块的稳健性和扩展能力。[page::5,6]

---

4. 多堆叠结构测试(第7-8页)



报告借鉴深度学习中跳跃连接技术设计两类改进:
  • 简单堆叠:传统多层GRU把上一层输出传递给下一层,层数与宽度可调。

- 密集堆叠:引用DenseNet思想,跨层连接将各层的原始特征及隐状态拼接传递,强化多尺度特征复用。

训练测试实验表明:
  • 简单堆叠超过2层后出现明显模型退化,即训练加深后模型性能反而不升反降,验证损失趋于停滞,且样本外表现恶化。结构拓宽则易过拟合,训练损失大幅下降而验证性能降低。

- 密集堆叠结构训练过程更均衡,过拟合风险降低,样本外的IC稳定提升,说明特征拼接机制有效提升深层次特征表达能力和泛化性能。
  • 回测中密集堆叠结构带来当收IC的大致持平和次均IC小幅提升,多头和多空收益均有改善。


此部分验证了跳跃连接尤其密集连接方式在RNN深层结构中的有效应用,为解决深层模型退化和泛化难题提供了实证依据。[page::7,8]

---

5. 多任务结构测试(第9-12页)



多标签训练可分为:
  • 多模型融合(多模型独立训练,对多个标签分别预测后加权融合)

- 多任务学习(MTL)(模型共享底层特征提取,实现任务间信息共享)

实验设计了两类标签:
  • 多跨度标签:预测未来5、10、15日次均收益,标签间相关性高(87%-100%),有明显共享信息;

- 多处理标签:预测相同10日收益,采用不同数据处理方式(标准化、排序化、二分类),相关性依离散化程度降低(89%-100%)。
多任务模型进一步分为硬参数共享(所有任务共享相同GRU层)和自定义参数共享(每任务独立GRU加共享部分)结构。[page::9,10]

实验发现:
  • 多跨度标签中,自定义共享模型表现明显优于硬共享及多模型融合,提升IC表现及分组收益,说明差异化任务信息结构共享对提升性能有效。

- 多处理标签自定义共享基本达到多模型融合表现,而硬共享表现稍逊。混合回归和分类任务亦体现相似规律。
  • 多任务学习通过共享机制提升训练效率和稳定性,降低单任务过拟合风险,实现信息正向迁移。


因此,自定义参数共享的多任务模型在标签含有一定差异性时能明显提升性能,是对多标签选股建模的合理扩展方案。[page::10-12]

---

三、图表与图片深度解读



图表1(第2页)基础模型结构示意


展示了特征输入(行情特征+分钟统计+高频因子)经过2层GRU特征提取、2层FC特征决策,最终输出10日次均收益预测标签的整体框架,清晰划分模块功能,帮助理解后续改进点的定位。[page::2]


图表2(第3页)基础模型绩效表现


表格详细列出5个随机种子下模型IC、ICIR、IC胜率及分组回测(多头超额、空头超额、多空差异、换手率)成绩,量化展示模型的预测准确度和选股有效性,稳定性通过最大差异体现。[page::3]

图表3(第4页)基础模型扩容训练表现


损失曲线显示扩容FC和GRU后训练集损失均明显下降,偏差降低,但验证集损失不降反升,尤其GRU扩容高方差风险突出,提示单纯扩容未经结构优化易造成过拟合和泛化差。[page::4]


图表4(第5页)多专家模型结构示意


左图简单聚合专家模型,右图门控聚合专家模型。说明多专家如何将基础FC层替换成多个专家模块,并通过加权或门控机制合成预测,明确多专家实施细节。[page::5]


图表5-7(第6页)多专家模型表现


分别体现多专家结构相较基础模型的IC、分组收益提升,种子稳定性增强,同时训练集与验证集损失曲线显示泛化更优,专家数量测试反映低敏感性,表现稳定可靠。[page::6]
图表6:


图表8-9(第7页)跳跃连接与多堆叠结构示意


对比传统残差网络(加法跳跃)与密集网络(拼接跳跃),以及RNN 简单堆叠与密集堆叠结构,清晰展示特征复用路径及跨层信息融合方式,为后续模型训练结果提供设计依据。[page::7]
图表8:

图表9:


图表10-11(第8页)多堆叠结构性能


展示简单堆叠层数加深后过拟合和退化现象的损失及IC表现,同时密集堆叠均衡可靠,效果小幅优于单层结构,回测分组收益稳定提升,验证跳跃连接有效改善深层RNN训练问题。[page::8]

图表12-13(第9页)多任务模型结构示意


对比多模型融合(多模型单任务)与多任务模型(共享GRU特征提取),以及硬参数共享与自定义参数共享两类结构,阐明多任务学习的参数共享策略和增益原理。[page::9]



图表14(第10页)多标签间相关性


定量显示多跨度标签和多处理标签间高度相关性,支撑多任务学习共享信息的合理性。相关性随着标签距离拉长或离散化程度增加而下降,反映标签选择的重要性。[page::10]

图表15-19(第10-12页)多任务模型绩效


系统展示多跨度和多处理标签的单模型、融合模型、硬共享、多任务自定义共享模型的IC及分组表现。整体来看自定义共享优于硬共享和多模型融合,特别是多跨度标签,表现最优,体现了多任务学习对模型性能的正向贡献。[page::10-12]

---

四、估值分析



本报告属于方法论和模型结构改进研究,未涉及传统金融标的估值分析,不包含现金流折现、PE测算等估值框架。重点在于模型性能指标(IC、分组收益)、训练验证表现及结构改进带来的定量提升。

---

五、风险因素评估



报告多处明确风险提示:
  • 模型所有结果基于历史数据计算,不保证未来有效性。

- 市场系统性风险及政策变动风险难以量化,可能显著影响模型适用性。
  • 模型简化了市场实际的交易和流动性问题,假设有所偏颇,实际环境差异可能导致模型表现偏差。

- 数据集存在少量缺失值,有微量统计偏误风险。

整体风险说明体现了作者对模型局限性的认知和对未来不确定性的坦诚,有助于理性对待模型结果。[page::0,13]

---

六、批判性视角与细微差别


  • 报告结构改进主要基于深度学习领域主流思路,但各结构改进间提升均为“小幅”或“略有”性质,显示模型性能增益有限且无爆发式增长,暗示选股模型基础设置仍是主要瓶颈。

- 多专家结构中门控聚合表现不及简单聚合,可能因门控机制设计复杂或训练稳定性不足,提示该方向存在调优空间。
  • 多任务模型自定义参数共享效果优于硬共享,说明任务间异质性较大,完全共享假设不足,但自定义共享也增加体系复杂度,设计和计算成本上升。

- 图表中显示除IC指标外,分组收益多空差异表现波动较大,某些最大差异指标(如空头组收益-44%)较大,风险控制机制未详细讨论,未来应用时需关注极端市场波动。
  • 研究基于量化因子回测,交易成本等现实因素未充分计入,实际收益可能扣减。

- 训练与测试均保有相同随机种子,实验设计严谨,但实际部署时模型效果仍可能因环境变动产生变异。

总体而言报告在理论设计和实验验证上严谨,实证充分,但在复杂金融市场应用中仍需结合更丰富的市场机制、风险管理和动态调参。

---

七、结论性综合



本报告围绕基于循环神经网络的选股模型展开,针对基础模型预测不稳定、扩展受限、单目标训练局限等问题,提出三种局部结构改进方案:
  • 多专家结构(Mixture of Experts):引入多个专家和门控机制改善特征决策模块,实现模型训练更均衡、预测更稳定,且对参数敏感性降低。简单聚合优于门控聚合。

- 多堆叠结构(跳跃连接):采用密集连接的GRU层级堆叠实现多尺度特征融合和复用,有效缓解深层网络退化问题,提升样本外泛化能力和选股效果。
  • 多任务结构(Multi-Task Learning):通过自定义参数共享结构实现多标签训练,促进标签间信息共享,提升预测准确性,尤其是在任务间存在差异的多跨度标签情形下获益明显。


从多个随机种子结果和多指标回测结果来看,三种结构改进均在稳定性、训练均衡和模型泛化方面带来实质提升,但未带来选股效果的根本性飞跃,提示选股模型仍处在逐步优化阶段。

各结构选型应结合标签相关性、模型复杂度和计算资源进行权衡,且报告强调历史数据依赖性和市场不确定性,对未来表现不保证。整体而言,本报告为基于RNN的量化选股模型在深度学习架构设计上的有益探索,具有可供参考的实践指导意义。[page::0,4,6,8,10,13]

---

总结



这篇中信建投发布的深度研究报告,系统揭示了现代深度学习结构优化在量化选股模型中的具体应用与效用。通过丰富的实验设计和严谨的数据分析,它为研究者与实务者提供了多专家、多堆叠、多任务三大核心架构改进的经验参考。各项图表及性能指标详实支撑结论,清晰描绘出深度学习模型在金融量化选股领域的复杂特性和优化路径。报告在保持科学严谨基础上,也明确风险提示,促进投资决策的理性与稳健。

---

参考文献


  • Lin et al. (2021), TRA模型结构

- Sun et al. (2022), AlphaMix模型
  • Ong et al. (2023), 硬参数共享多任务模型

- Huang et al. (2017), DenseNet密集连接
  • He et al. (2016), ResNet残差网络


---

(全文基于页码标注严格溯源,保证引用准确与专业性。)

报告