基于时序神经网络的选股模型初探
创建于 更新于
摘要
本报告系统探讨九种时序神经网络模型在多维股价时序数据上的应用,明确了TCN模型在单模型测试中的优异表现,均值IC达到11.31%。通过模型相关性分析与多模型等权组合,实现更稳定且全面的绩效提升。基于该多模型组合构建的中证1000指数增强组合年化超额收益达18.6%,信息比率2.63,体现了多模型融合选股策略的有效性和稳定性,为投资组合构建提供理论和实证支持[page::0][page::3][page::10][page::14][page::15][page::16][page::17][page::18]
速读内容
多维时序神经网络模型结构分类与特点 [page::4][page::5][page::8][page::9]
- 时序处理模块划分为RNN、CNN和Attention三大类,分别擅长捕捉长期依赖、短期局部依赖及加权关键信息。
- 研究九种时序模型:GRU、AGRU、TPA、GAT、LSTNet、TCN、TCAN、XCM及Transformer,模型复杂度和模块组合多样,适应不同时序特征挖掘需求。
- 其中AGRU、TPA引入注意力机制加强时间步感知,GAT结合图神经网络,LSTNet注重多时段模式捕捉,TCN采用卷积及膨胀卷积增强历史信息捕获。[page::4][page::5][page::6][page::7][page::8][page::9]
单模型性能测试与比较 [page::10][page::11][page::12][page::13]
| 模型 | 均值当日收盘IC | 最大差异 | 均值次均IC | 备注 |
|--------|----------------|----------|------------|--------------------|
| TCN | 11.31% | 0.26% | 11.26% | 表现最优,稳定性强 |
| TPA | 11.35% | 0.74% | 11.28% | 绩效突出,带注意力 |
| AGRU | 11.24% | 0.54% | 11.16% | 增加时序注意力层 |
| GRU | 11.21% | 0.60% | 11.18% | 传统RNN模型基线 |
| LSTNet | 10.80% | 0.55% | 10.93% | 综合多时段建模 |
| GAT | 10.76% | 1.50% | 10.99% | 图注意力引入 |
| TCAN | 10.64% | 0.26% | 10.90% | TCN加注意力机制 |
| XCM | 9.10% | 1.13% | 9.97% | 低复杂度CNN模型 |
| Transformer | 9.04% | 1.73% | 10.45% | 结构复杂,表现弱势 |
- TCN和TPA表现领先,Transformer表现相对较弱。
- 随更新周期不同年份模型表现轮动,TCN无明显弱势年份保持较强稳定性。[page::10][page::11][page::12][page::13]
模型间相关性与两两模型组合效果分析 [page::14][page::15]

- 高相关性模型:GRU、AGRU、TPA高度相关,GAT和LST也接近;TCN和TCAN与前者相关度中等;XCM和Transformer相关度最低。
- 两两组合上,强强模型结合效果最佳,TPA+TCN提升显著;强弱结合也带来次均IC提升,尤其TCN+Transformer组合最优。
- 弱模型采用低相关模型组合仍可带来增益,体现模型多样性价值。[page::14][page::15]
多模型等权组合结果与收益表现 [page::15][page::16][page::17]
| 指标 | 多模型等权组合 |
|------------|----------------|
| 年化超额收益 | 18.6% |
| 信息比率 | 2.63 |
| 双边换手率 | 约30% |
- 多模型合成因子IC显著高于单一模型,且次均IC提升超过当收IC。
- 分年表现更加平滑,无明显弱势年份,稳定性优异。
- 在中证1000股票池中,多头超额收益最高达29.5%,多空组合净值回撤较低,回撤主要集中在2020-2022年间。
- 多模型增强组合实现了明显的超额收益并具备较优风险控制。[page::15][page::16][page::17]
模型训练与测试设置 [page::10]
- 训练采用滑动时间窗口,8年训练,1年验证,每两年更新模型。
- 预测以周频度进行,因子输出进行异常值缩减及标准化中性化处理。
- 多次随机种子训练保证结果的稳定性与鲁棒性。
- 多空分组配置与指数增强组合均有严格权重及换手率约束,结合实际市场约束条件。
- 历史回测风险提示:所有结果均基于历史数据,未来可能失效。[page::10][page::14][page::18]
深度阅读
证券研究报告详尽分析
报告标题:基于时序神经网络的选股模型初探
作者:陈升锐、王西之
发布机构:中信建投证券股份有限公司金融产品组
发布日期:2023年12月08日
主题:时序神经网络模型在选股中的应用及性能评估,聚焦不同深度时序模型及其组合的选股效果,尤其是在中证1000指数增强组合上的表现。
---
一、元数据与概览
本报告属于中信建投证券“金融产品深度研究”系列的最新拓展,延续此前两篇基于循环神经网络(RNN)选股模型的研究,进一步引入和比较多类时序神经网络架构,包括RNN、CNN和Attention三大模块,涵盖九种具体模型结构。核心观点指出:
- 单模型中,基于卷积的时间卷积网络(TCN)优于其它模型,均值因子的信息系数(IC)达到11.31%,且表现稳定,无明显弱势年度。
- 模型间的相关性与结构相似度密切相关,高相关模型间增益有限。
- 多模型简单等权结合显著提升表现,分年绩效更为稳定。
- 基于多模型构建的中证1000增强组合实现年化超额收益18.6%、信息比率2.63。
报告指出所有绩效基于历史数据,未来模型有效性不保证,存在风险提示。此外,报告包含多个技术模型结构的详解、测试设计、模型表现比对、组合构建及风险提示,文章图表丰富,体现显著的量化研究深度。[page::0,3,18]
---
二、逐节深度解读
2.1 前言
报告定位和研究背景
作为先前基于循环神经网络的选股模型研究的扩展,本报告剖析了多种时序神经网络架构对量化选股的适用性,拓宽时序处理模块从单一RNN至RNN、CNN及Attention三大类,模型结构从简单GRU扩展为九种异质性结构,包括结合图神经网络(GNN)的GAT以及纯Attention驱动的Transformer等。这些拓展体现了对时序数据深度特征的多维捕捉尝试,旨在提高因子信息效度和组合表现风险调整后的稳定性。初步结果显示单模型中的TPA和TCN表现突出,多模型整合能够更有效提升收益表现和策略稳定性,特别在中证1000指数增强组合上有优异展示。[page::3]
时序数据定义与预处理
时序数据多维度(三维):样本、特征变量和时间步。报告强调分别通过内部维度或跨维度提取特征能力的重要性。采用8个日度行情特征(开、高、低、收、均价、成交金额、成交量、市值),进行30天长度的序列截取;通过时序变换消除量纲,截面变换使各指标尺度一致,缺失数据做统一填补保证完整性。此基础数据处理为后续模型训练提供了高质量输入。[page::3]
---
2.2 时序模型结构解析
时序处理模块对比
- RNN:擅长捕捉长期依赖,通过循环结构处理序列,常用变种包括GRU和LSTM,能缓解梯度消失问题。
2. CNN:擅长捕捉局部短期依赖,采用因果卷积保证只用历史信息,膨胀卷积扩展感受野覆盖更长历史。
- Attention:通过加权机制强调关键时间步或变量,更灵活捕捉信息赋权。
图表2清晰展示了三种模块的输入输出层级和结构差异,凸显了各自优势及局限。[page::4]
九类具体时序模型结构对照
- GRU (RNN+MLP):基础门控循环单元。
- AGRU (GRU+Attention+MLP):增加时间步层注意力,提高关键时间步感知。
- TPA (GRU+CNN+Attention+MLP):增加CNN提取单变量时序模式,注意力聚焦关键变量。
- LSTNet (CNN+GRU+Skip GRU+AR+MLP):融合短期、长期、周期、线性趋势判别机制。
- GAT (GRU+GNN+Attention+MLP):利用图注意力建立样本间关系。
- XCM (CNN+MLP):轻量级、可解释性高,使用多个2D/1D卷积提取特征。
- TCN (CNN+MLP):使用因果膨胀卷积和残差连接改善序列捕捉深度。
- TCAN (TCN+Attention+MLP):在TCN基础上添加时序注意力和增强残差连接。
- Transformer (TF) (Attention+MLP):复杂的多层编码、解码器,内嵌位置编码和多头自注意力机制。[page::4,5,6,7,8,9]
模型复杂度从XCM(低)至Transformer(高)排序,模块多样性与复杂度增强了模型的表达能力,但训练难度提升明显。
---
2.3 单模型测试及性能对比
训练与测试设计
- 滑动时间窗口:8年训练+1年验证集,2016年底开始2年更新周期。
- 目标函数为相关系数(IC)取负,最大化预测能力。
- 采用5个随机种子相同初始化以控制随机性,最后进行均值整合。
- 测试指标包括当日收盘价(IC)和次日均价(IC)的相关系数,分为原始因子和中性化处理后因子指标。
- 时间跨度2017年1月至2023年10月,按周频率生成并回测因子。[page::10]
关键测试结果
- TCN模型表现最优,均值IC为11.31%,ICIR(信息比率)约1.04,随机性差异小,仅0.26%浮动,保持稳定表现。
- Transformer(TF)模型表现较弱,均值IC约8.66%,随机性较大(最大差异1.73%),显示高复杂度未必带来收益提升。
- GRU、AGRU、TPA也表现较强,且GRU系列模型间相关性极高。
- XCM、TF在早期年份表现较弱,但2023年表现有所提升。
- 分年表现显示模型之间有轮转,即不同年份中最佳表现模型改变,TCN为极少弱势年份的稳健模型。[page::10,13]
---
2.4 多模型组合性能与相关性分析
模型相关性分析(图表23)
- 高相关的组别:GRU、AGRU、TPA(98%左右相关);且GAT、LST与其相关度也较高(90%以上),说明基于GRU的模型提取特征高度相似。
- TCN、TCAN相对相关度稍低(约90%);XCM与TF与主流模型相关性较低(约75%-85%),因为它们分别仅依赖CNN或Attention单一模块,捕捉维度不同。
这种模型间相关性在组合设计上至关重要,低相关模型组合有望提升多样化收益。[page::14]
模型间两两结合(图表24)
- 强强结合(如TPA与TCN)带来IC显著提升。
- 弱模型与强模型结合效果分化——XCM和TF与强模型结合时往往拉低收益,但在次均价IC下弱模型间结合有小幅增益。
- 高相关模型两两结合,提升有限。
整体显示多样性组合策略有助提升绩效和稳定性。[page::15]
多模型简单等权组合
- 多模型均值IC提升至11.47%,优于所有单模型。
- 分年IC表现更平滑,无明显弱势年份,且部分年份的表现显著优于单模型(图表26)。
- 次均IC提升快于当日收盘IC,表明组合能进一步降低噪音和增强预测稳定性。[page::15,16]
---
2.5 多模型组合在股票池中的实际回测表现
组合构建说明
- 按10组分组法,将股票均权分组,计算相对指数(基准包括万德全A、沪深300、中证500、中证1000)的超额收益。
- 多空组合年化超额回报最大在中证1000(29.5%多头超额),全市场多空超额收益最高达76%,显示模型对市场超额收益捕捉能力较强。
- 采用中性化因子后,换手率轻微下降,多空净值的最大回撤率降低近一半,显示中性化处理可提高策略稳定性和降低风险。(图表27,28)
- 对于中证1000,使用多模型预测结果构建指数增强组合,年化超额收益可达18.6%,信息比率为2.63,换手率约30%,具备较高风险调整收益能力。2023年表现尤为突出,年化超额达到26%(图表29,30)。
- 超额净值回撤主要集中在2020年年初、2021年中期以及2022年上半年,结合市场大环境波动合理体现策略风险点。[page::16,17]
---
2.6 总结与风险提示
报告总结部分重申:
- 单模型测试下,TPA与TCN表现卓越。
- 模型间预测相关性依赖结构相似性。
- 多模型整合显著提升预测表现和分年稳定性。
- 基于多模型构建的中证1000指数增强组合表现优异,年化超额收益高达18.6%,信息比率2.63。
风险提示强调所有模型均基于历史数据,未来有效性无保障,市场风险、政策风险和数据缺失可能带来模型偏误。报告中所做合理假设可能与实际操作存在偏差,投资者应审慎权衡。[page::18]
---
三、图表深度解读
图表1:基础模型结构示意图 [page::3]
展示了多维时序数据的三个维度:样本、变量、时间步。样本间的差异、变量间的相互联系以及时间序列动态变化均可通过模型设计获取。图示帮助形象理解输入数据的三维结构。
图表2:时序处理模块结构对比 [page::4]
- RNN结构显示循环层对序列时间步信息的传递,适合捕获长期依赖。
- CNN描绘了层级卷积过滤器的时序采样,膨胀卷积有助扩展感受野,捕捉局部和间隔依赖。
- Attention示意编码层聚合不同时间步信息,计算权重,突出关键信息节点,捕获全局联系。
图表3-12:各模型整体结构示意图 [page::4-9]
详细绘制了九个模型的模块组合过程,配合结构特点:
- AGRU与TPA模型均在GRU基础上加入Attention机制,增强强关键信息提取;TPA额外融合CNN拦截特征的时序模式;
- LSTNet集成了多模块,兼顾短期、长期、周期性和线性结构;
- GAT引入图注意力拓展样本间关联;
- XCM三层CNN结构设计,实现高可解释性与较低复杂度;
- TCN采用因果和膨胀卷积结合残差连接的深层架构;
- TCAN在TCN基础上加入Attention机制强化时序权重;
- Transformer采用复杂的编码-解码结构,利用自注意力机制实现全局序列建模。
这些结构图明确了各模型设计逻辑与数据处理路径。
多项模型IC测试图表(图表13-21)[page::10-12]
表格详细列出了9个模型及其5个随机种子的IC绩效和信息比率,分别进行了原始因子和中性化因子的测试。TCN连续展现出最高的均值IC和最低的随机性,证明了其在时序金融数据中稳定的预测能力;Transformer虽复杂但表现最差。
分年IC表现表(图表22,26)[page::13,16]
分年数据展示明显的年度轮转,强化了多模型组合在平滑风险的价值。特别是多模型组合稳定保持较高的IC,避免了单一模型年度弱势问题。
模型相关性热力图(图表23)[page::14]
高度相关的模型簇和较低相关模型的区别为组合配置提供了方向,支持多样化组合增强。
两两模型结合IC测试矩阵(图表24)[page::15]
分辨出强强结合、弱强结合与弱弱结合的不同增益价值,指导后续多模型搭配。
多模型组合绩效及分组回测结果(图表25-30)[page::15-17]
- 多模型等权组合IC提升,分年表现均衡。
- 分组收益演示中证1000增强组合的实际超额和换手率表现。
- 多空组合净值曲线直观显示策略长期收益能力和风险控制。
这些可视数据支持报告提出的组合策略优越性。
---
四、估值与风险因素分析
报告不涉及传统市盈率、现金流折现等估值方法,焦点为时序神经网络模型的因子有效性及其对组合收益的贡献评估。存在的风险主要包括:
- 历史数据有效性风险:模型基于历史回测,未来市场环境变化可能致使模型性能失效。
- 市场系统性风险:经济、政策变化可能导致策略失效。
- 数据质量风险:基础数据缺失可能增加模型偏误。
- 过拟合风险:复杂模型可能因训练数据特性非现实放大因素,实际表现不及预期。
- 交易风险:换手率和实际执行成本在报告中有所考虑,但仍可能影响收益。
报告未提供具体缓解措施,但通过多模型组合及中性化预处理减缓了单模型波动风险,提高整体稳健性。
---
五、批判性视角
- 随机抽样稳定性:报告通过5个随机种子测试稳定性较高,但35轮早停机制是否对某些复杂模型有偏向未论述。
- 模型应用范围:尽管中证1000表现良好,但不同市场环境(大盘股、新兴市场)适应性及模型扩展性不明确。
- 高复杂度模型不优:Transformer表现较差说明复杂非线性模型未必匹配此类金融时间序列,可能因模型参数过多、市场噪音较高导致泛化能力差。
- 组合简易加权策略:等权结合效果显著,但未探讨加权优化或智能加权策略潜力。
- 风险控制细节缺失:尽管回撤数据展示存在,报告未详细讨论波动率、夏普比率等风险指标体系。
- 交易成本处理简略:报告提及费率和换手率,但未深入量化交易滑点和市场冲击对实盘收益的影响。
综合来看,报告在模型效能和组合设计方面深入,却有部分实操细节和策略持续性探讨不足。
---
六、结论性综合
本报告系统地回顾并扩展基于时序神经网络的量化选股模型,涵盖九种主流结构并做严格的单模型和多模型回测比较。研究表明:
- 时序处理模块构建全面且符合金融时间序列特征,包括RNN的长期依赖捕捉,CNN局部模式提取及Attention的权重赋予。
- TCN和TPA模型单独表现最佳,表现稳定且随机性低,提供了强因子信号。
- 模型间预测相关性与结构相似度密切相关,高度相关模型组合增益边际递减。
- 多模型等权简单叠加实现性能明显提升,IC提升同时分年表现更加平稳,缓解了单模型表现波动的风险。
- 基于多模型预测的中证1000增强组合表现优异,年化超额收益约18.6%,信息比率高达2.63,具备实际应用潜力。
- 中性化处理与组合优化改善换手率与回撤,提升策略实际可操作性。
图表深度解读充分支持理论与实证结论,提供从模型结构、性能指标、组合策略及风险表现的全方位数据支撑。报告对金融量化领域时序神经网络应用提供了较为系统的参考框架和实践基础,尤其适合关注因子挖掘及模型集成提升的投资科研与实战团队。
---
附录:部分重点图表(Markdown格式示例)
图表23:模型间相关性

图表28:多模型多空组合净值曲线

图表30:多模型1000增强组合超额净值曲线

---
总体评价
作为金融科技选股策略研究报告,这份文档细致而严谨,内容涵盖从方法论、模型设计、实证验证到组合回测,提供了丰富的技术细节和评估指标,适合有一定机器学习与量化背景的读者。报告融合了最新深度学习技术于金融因子模型中,为时序数据的量化利用指明了方向,但需结合具体实盘环境考量风险与执行因素,避免单纯依赖历史数据的陷阱。[page::0-21]