`

选股因子系列研究(九十三)——深度学习因子的“模型动物园”

创建于 更新于

摘要

本文对比分析了基于多类别深度学习模型训练得到的选股因子的周度选股能力,涵盖卷积类、Transformer 类及线性类模型,发现卷积类模型(尤其是 BiATCN 与 TCN)表现最佳。通过因子集成提升超额收益,中证500和中证1000的AI增强组合年化超额收益显著提高,稳健性增强。风险提示包括市场系统性风险和因子失效风险 [page::0][page::4][page::12][page::14]

速读内容


多类别深度学习模型周度选股能力对比 [page::4][page::7][page::8]


  • 卷积类模型中,BiATCN模型周均Rank IC最高达0.137,Top10%组合年化超额收益约33.8%,换手率较高。

- Transformer类模型中,Transformer模型周均Rank IC为0.129,Top10%组合年化超额收益约30.6%。
  • 线性类模型中,TSMixer表现最佳,周均Rank IC达0.122,Top10%组合年化超额收益26.8%。

- 各模型均呈现显著选股能力,但BiAGRU、BiATCN和TCN表现优异。

模型因子间截面相关性及差异表现分析 [page::9][page::10]


| 模型 | BiAGRU | BiATCN | TimesNet | Transformer | Informer | PatchTST | RLinear | RMLP | DLinear | TSMixer |
|------------|---------|---------|----------|-------------|----------|----------|---------|------|---------|---------|
| 相关性范围 | 0.74-0.79 | 0.74-0.86 | 0.77-0.90 | 0.77-0.91 | 0.76-0.91| 0.74-0.90| 0.75-0.90| 0.75-0.93| 0.76-0.91| 0.78-1.00 |
  • 模型因子相关性整体较高,但在特定时期表现差异明显,尤其2018年多模型在上半年纷纷跑输BiAGRU。

- 相关性分析显示不同模型对低流动性与反转因子的捕捉存在差异,影响超额收益表现。
  • 2018年6月迭代后,各模型相关性趋于一致,表现开始与BiAGRU相近或超过。


多模型集成提升因子表现与增强组合收益 [page::11][page::12][page::13]


  • 采用等权集成融合BiAGRU与BiATCN、Transformer等模型,显著提升周度Rank IC至0.14+。

- 集成模型Top10%和Top100组合年化超额收益分别提升至约34%和40%。
  • 中证500和中证1000增强组合的年化超额收益分别提升到18.4%-18.5%和24.3%-25.1%。


| 组合 | 超额收益(全区间) | 最大回撤 | 信息比率 |
|----------------|-----------------|---------|---------|
| 中证500 +DBiAGRU+BiATCN+Transformer | 18.5% | 4.0% | 3.64 |
| 中证1000 +BiATCN | 24.7% | 4.8% | 4.41 |

量化因子构建与模型优化方法简述 [page::4][page::7]

  • 因子建立基于不同深度学习网络,训练输入为日粒度量价特征,输出为下一周期收益预测。

- 多类别网络架构包括时域卷积(TCN)、时序卷积(TimesNet)、自注意力(Transformer及变体)及轻量级线性模型(DLinear等)。
  • 利用网络结构差异及超参数调整,实现对量价信息不同层次的提取并优化因子表现。

- 采用等权集成策略平滑不同模型间差异,实现更稳健的选股信号 [page::9][page::11]

风险提示 [page::0][page::14]

  • 市场系统性风险、资产流动性风险及政策变动风险。

- 因模型可能存在因子失效,历史表现不代表未来表现,需谨慎使用。

深度阅读

报告详尽分析报告



---

1. 元数据与概览


  • 标题:《选股因子系列研究(九十三)——深度学习因子的“模型动物园”》

- 作者:冯佳睿,袁林青
  • 发布机构:海通证券研究所

- 发布日期:2023年(具体日期未见明示)
  • 主题:本报告聚焦于基于不同深度学习模型训练的股票选股因子的效果对比与集成研究,特别是探索深度学习模型(包括RNN、卷积、Transformer、线性模型)在周度选股能力的表现,并研究集成多模型后的增强效果。


核心论点:

报告通过对比多类深度学习模型训练出的因子在周度选股能力上的表现,发现卷积类模型(TCN、BiATCN)、Transformer类模型(Transformer自身、Informer、PatchTST)及线性类模型(DLinear、TSMixer等)都能产生显著的选股能力,其中卷积类模型表现最佳,Transformer次之,线性类模型相对较弱。进一步,采用多模型等权集成的方式能提升因子的稳健性和总体表现,尤其是BiAGRU模型与BiATCN、Transformer模型的集成,推动因子周均Rank IC及超额收益均有所提高。最后,基于集成深度学习因子构建的中证500和中证1000增强组合表现出可观的年化超额收益,显示了集成模型的实际投资价值。
  • 报告明确指出风险包括:市场系统性风险、资产流动性风险、政策变动风险及因子失效风险。


整体报告传达的主要信息是:多样化深度学习模型可捕捉不同量价信息的特征,通过集成能够获得更加稳健且优异的选股因子表现,进而提升指数增强组合的收益表现。[page::0,4,14]

---

2. 逐节深度解读



2.1 深度学习因子的“模型动物园”



本章节是报告的主体,从深度学习模型分类入手,检验不同模型训练因子的周度选股能力,结构清晰分为卷积类模型、Transformer类模型和线性类模型三个部分,且控制输入数据、预测目标、训练设定一致,便于横向对比。

2.1.1 卷积类模型(第4-5页)


  • 关键论点


卷积类模型适合捕捉时间序列的局部特征与短期趋势,通过空洞卷积和残差连接增强对长时间依赖的感知与深层网络训练的可行性。重点测试了TCN(Temporal Convolutional Network)和TimesNet两种结构,BiATCN作为双向学习带注意力机制的增强版TCN也被测试。
  • 推理依据


TCN能够捕获因果关系、长依赖,通过残差避免梯度消失,提升模型拟合能力;TimesNet将时间序列变换为二维,结合傅立叶变换和时空卷积深入挖掘时间序列复杂内在规律。
  • 关键数据点(表1)


|模型 |周均Rank IC (TO收盘)|Top10%组合费前年化超额收益|Top10%组合费后年化超额收益|Top100组合费前|因子自相关|双边换手率(Top10%)|
|----------|---------------------|--------------------------|--------------------------|--------------|---------|------------------|
|BiAGRU |0.135 |32.5% |24.7% |38.5% |0.75 |40 |
|TCN |0.133 |32.6% |23.0% |37.3% |0.68 |50 |
|BiATCN |0.137 |33.8% |24.5% |40.6% |0.70 |48 |
|TimesNet |0.124 |28.7% |21.1% |33.5% |0.77 |40 |

结果显示,BiATCN表现最佳,TCN紧随其后,整体周度选股能力显著但换手率和自相关性有所提升,反映出换手率和因子稳定性之间的权衡。
  • 分年度多头超额收益(表2)


- 2018年卷积模型大幅跑输BiAGRU,超额收益差距超过10%;
- 2019-2021及2023年表现优于BiAGRU,特别是引入注意力机制和双向学习的BiATCN提升明显。

这些数据指示卷积类模型在部分年份表现优异,但对市场波动时期的适应存在差异。
  • 图解说明


图1(TCN结构示意图)清楚展示了时域卷积层、空洞卷积因果特性及残差块,说明了模型设计对时间序列预测的适应性。

图2(TimesNet结构示意图)通过傅里叶变换将一维时间序列频率信息映射为二维时空变异,提升了模型对内在周期及结构的内容捕捉能力。[page::4,5]

2.1.2 Transformer类模型(第6-7页)


  • 关键论点


Transformer自注意力机制有效捕获序列中任意两点间依赖,适合长序列处理。重点模型有经典Transformer、Informer及PatchTST。
  • 模型特点


- Informer通过概率稀疏自注意力及蒸馏机制提高长序列处理效率;
- PatchTST将变量视为独立通道,采用Patch划分实现局部信息有效抽取,并支持有监督和自监督训练增强泛化能力。
  • 关键数据点(表3)


|模型 |周均Rank IC (TO收盘)|Top10%组合费前超额收益|费后超额收益|Top100组合费前|因子自相关|双边换手率|
|-----------|---------------------|-----------------------|------------|--------------|---------|----------|
|BiAGRU |0.135 |32.5% |24.7% |38.5% |0.75 |40 |
|Transformer|0.129 |30.6% |22.9% |35.8% |0.75 |40 |
|Informer |0.125 |27.9% |19.5% |33.6% |0.72 |45 |
|PatchTST |0.111 |23.7% |18.1% |26.7% |0.80 |30 |

Transformer表现优于Informer和PatchTST,但整体略逊于BiAGRU。换手率与因子自相关性接近BiAGRU,显现一定稳定性。
  • 分年度表现(表4)


Transformer和Informer在2019、2020、2023年表现较好,而2018年依然明显落后BiAGRU,提示早期市场调适尚需强化。
  • 图解说明


图3(Informer网络结构示意图)展现了嵌入层、一维卷积的多头自注意力结构及多层attention块;

图4(PatchTST结构示意图)强调通道独立性与Patch的拆分处理方式,帮助理解其细粒度的时序特征提取方式。[page::6,7]

2.1.3 线性类模型(第8-9页)


  • 关键论点


线性类模型结构简单,参数量少,能有效建模趋势与残差序列,虽整体表现弱于BiAGRU,但在部分时段取得可观成绩。核心模型包括DLinear、RLinear、RMLP和TSMixer。
  • 模型详情


DLinear通过趋势+残差序列分解后各自单层线性模型进行预测;TSMixer借鉴视觉MLP-Mixer架构,设计时序混合和特征混合层捕捉多尺度信息。
  • 关键数据点(表5)


|模型 |周均Rank IC (TO收盘)|Top10%组合费前超额收益|费后超额收益|Top100组合费前|因子自相关|双边换手率|
|----------|---------------------|-----------------------|------------|--------------|---------|----------|
|BiAGRU |0.135 |32.5% |24.7% |38.5% |0.75 |40 |
|DBiAGRU |0.134 |33.0% |25.2% |41.0% |0.76 |40 |
|TSMixer |0.122 |26.8% |19.6% |32.6% |0.76 |39 |
|DLinear |0.119 |24.6% |17.7% |26.5% |0.77 |37 |
|RMLP |0.117 |24.2% |17.0% |27.6% |0.76 |40 |
|RLinear |0.111 |22.5% |16.5% |25.7% |0.80 |33 |

DBiAGRU通过引入DLinear处理输入特征小幅提升表现,TSMixer在线性类中排名最高。
  • 分年度表现(表6)


线性模型多在2017-2018年表现较弱,落后BiAGRU超过15%。只是2021和2023年取得阶段性提升。
  • 图解说明


图5、图6分别展示了DLinear和TSMixer的网络结构,突出趋势+残差分解及MLP Mixer设计,有助理解其工作机理。[page::8,9]

2.1.4 本章小结(第10页)


  • 卷积类模型在本测试中表现最佳,Transformer次之,线性类模型表现较弱。

- BiATCN、TCN和Transformer表现较好,DBiAGRU也算突出。
  • 需注意模型表现受超参数、特征预处理、训练频率影响较大,结论具有一定的局限性,不完全可迁移。

- 投资者应根据实际需求调整模型配置。[page::10]

---

2.2 “模型动物园”内的对比与集成(第10-12页)


  • 截面相关性(表7)


- 多模型因子相关系数普遍较高,0.7-0.8均值,同类模型间相关性达到0.85以上。
- 说明架构虽不同,但对同一输入和训练目标最终得出类似因子特征。
  • 模型年度超额收益对比(表8)


各模型多头超额收益虽整体趋同,2017-2018年间BiAGRU明显领先。示例中2018年各模型下半年表现趋同甚至超越BiAGRU(图7),但上半年均明显落后。
  • 原因探讨


通过与低频量价因子的相关性变化(表9)、低频因子超额收益(图8)结合分析发现:

- 2017年底BiAGRU已降低对低流动性和反转因子的依赖,而其他模型相关性较高;
- 2018年上半年这两类因子表现不佳,导致相关性高的模型跑输BiAGRU;
- 6月调参更新后,模型相关性和市场表现趋同,落后问题缓解。
  • 集成模型设计与效果(表10-11)


采用简单等权集成方法,将BiAGRU与BiATCN、Transformer及DBiAGRU等模型因子结合:

|模型组合 |周均Rank IC (TO收盘)|Top10%费前超额收益|Top100费前超额收益|因子自相关|换手率|
|---------------------------|---------------------|-------------------|-------------------|----------|-------|
|BiAGRU |0.135 |32.5% |38.5% |0.75 |40 |
|+BiATCN |0.142 |35.2% |41.2% |0.74 |43 |
|+BiATCN+Transformer |0.141 |34.2% |39.9% |0.76 |40 |
|+DBiAGRU+BiATCN+Transformer|0.142 |34.8% |40.8% |0.76 |40 |

年度多头超额收益表明2019-2023年区间,集成模型通常优于BiAGRU,尤其+BiATCN及其叠加Transformer的组合表现最佳,2021年Top100组合为例除外。
  • 逻辑推断


各模型因结构、训练细节不同,对量价信息学习和适应速度存在差异,集成可缓冲单一模型在极端市场下的表现波动,提升稳健性。[page::10,11,12]

---

2.3 基于模型集成的AI增强组合(第12-14页)


  • 构建逻辑


利用集成模型输出的因子作为收益预测指标,结合中证500和中证1000指数成分构建增强组合。考察全市场选股与限制80%成分股的组合表现。
  • 约束条件


1. 个股权重偏离基准不超0.5%
2. 因子暴露估值、市值中性,低频因子暴露控制在[-0.5,0.5]
3. 行业中性(中信一级行业)
4. 选股空间全市场或成分股80%
5. 换手率限制单次单边不超过30%
  • 优化目标:最大化组合预期超额收益,权重\(wi\)与预测收益\(\mui\)相关。
  • 超额收益表现(表12)


|模型组合 |中证500全市场|中证500 80%成分|中证1000全市场|中证1000 80%成分|
|---------------------------|-------------|----------------|--------------|----------------|
|BiAGRU |16.5% |11.7% |22.5% |20.0% |
|+BiATCN |17.8% |12.3% |24.7% |21.4% |
|+BiATCN+Transformer |17.4% |11.8% |24.3% |20.5% |
|+DBiAGRU+BiATCN+Transformer|18.5% |11.7% |24.4% |21.3% |
|+DBiAGRU+BiATCN+Trans+TSMixer|18.4% |11.5% |25.1% |20.7% |

集成模型提升有效,尤其+BiATCN及其叠加Transformer模型优异。
  • 风险收益指标(表13、14)


中证500组合(2017-2023)年化超额收益18.5%,最大回撤4%,信息比率3.64,月度胜率80%;

中证1000组合(2017-2023)年化超额收益24.7%,最大回撤4.8%,信息比率4.41,月度胜率88%。
  • 图谱说明


图9、图10呈现2023年两指数AI增强组合超额净值走势,回撤在2-2.5%区间,表现稳健。

综上,深度学习模型集成因子驱动的增强组合表现突出,风险控制良好。[page::12,13,14]

---

2.4 总结(第14页)


  • 多类别深度学习模型均能产生有效周度选股因子,卷积类(BiATCN、TCN)表现最优,Transformer和DBiAGRU次之。

- 尽管模型因子相关性高,但不同模型对量价信息的捕捉和适应速度差异导致在不同时间段表现分化明显。
  • 通过等权集成多模型因子,可有效提升因子稳定性和选股能力。

- 基于集成因子的AI增强组合实现了年化超额收益的有效提升,并控制了跟踪误差和最大回撤。
  • 风险提示包括市场系统性风险、资产流动性风险、政策风险及因子失效风险。


---

3. 图表深度解读



3.1 图1、2:卷积类模型网络结构


  • 图1 TCN网络结构展示了多层一维因果卷积,采用空洞卷积扩展感受野,结构中残差块帮助梯度流动,保证深度学习能力,适合时间序列因果预测。

- 图2 TimesNet结构将一维时间序列转换二维,通过频域频率分解构建多尺度数据表示,结合2D卷积捕捉周期性和结构性信息,提升时序的复杂模式拟合能力。

这两图清晰展示了卷积模型如何在时间序列中挖掘局部到全局信息。

3.2 图3、4:Transformer类模型结构


  • 图3 Informer结构结合嵌入、窗口卷积及多头自注意力层,提升长序列建模效率。

- 图4 PatchTST结构强调通道独立特性,利用Patch划分实现局部时间段处理,参数共享捕获变量间关系,支持监督和自监督。

两图突出了Transformer的多样性改进以适应时间序列挑战。

3.3 图5、6:线性类模型结构


  • 图5 DLinear结构通过趋势与残差单层线性网络实现时间序列预测,特色是简单且能捕捉序列分量不同特征。

- 图6 TSMixer结构模仿MLP-Mixer,分时序混合和特征混合层,实现时间和变量两维信息融合。

两图说明线性类模型设计简洁但功能丰富,为轻量级时序预测提供途径。

3.4 选股能力及超额收益表


  • 表1、3、5清晰对比了各类模型的基准选股能力:均衡指标是Rank IC和费前、费后的组合超额收益。

- 表2、4、6分年度展示极端组合超额收益,显示各模型在不同时期适应能力和稳定性。
  • 表7截面相关性表显示各因子之间结构性关系,利于评估因子多样性和集成潜力。

- 表8和11年化超额收益年分解体现出模型绩效随市场变化波动的实证呈现。

3.5 图7、8和表9:模型差异与因子关联


  • 图7展现2018年不同模型对比BiAGRU的相对净值走势,揭示上半年普遍逊色,下半年逐渐追平。

- 图8低频技术因子的多头超额净值走势,显示某些因子表现与模型表现高度关联。
  • 表9模型与低流动性、反转、低波动因子的相关性对比,帮助解析模型因子对不同风险因子的敏感度。


3.6 集成模型表现(表10-12,图9-10)


  • 表10-12展示集成模型周度选股能力、极值组合收益和AI增强组合年化超额收益对比,体现集成优势明显。

- 图9、10分别绘制2023年中证500、1000 AI增强组合的超额净值走势和回撤区间,显示组合相对稳健的盈利风险状态。

各图表协同支持报告论点,形成数据与理论高度一致的逻辑闭环。[page::4-14]

---

4. 估值分析



报告核心为选股因子效果评估及实证构建指数增强组合,未触及传统估值模型(如DCF、市盈率等),因此无直接估值内容。不过,选股因子通过极值组合超额收益和Rank IC反映因子选股收益能力,是深度学习因子估值的一种间接表现。

---

5. 风险因素评估


  • 市场系统性风险:影响整体行情和因子适用。

- 资产流动性风险:资金规模扩大后换手频繁可能带来流动性约束,尤其换手率提升属于风险信号。
  • 政策变动风险:政策调整可能影响市场方向和量价特征,导致因子失效。

- 因子失效风险:策略和模型基于历史回测,市场规律变化可能导致近期表现不佳。

报告未详细披露缓解措施,但建基于模型集成和多因子组合,间接作为对冲单模型风险的手段。[page::0,14]

---

6. 批判性视角与细微差别


  • 数据限制:模型训练仅使用日粒度,未利用更高频数据,可能限制模型短期响应能力。

- 超参数及配置:报告承认部分模型表现可能因超参数选择及训练调度不佳,暗示结论有调优空间,表现不具备高度迁移性。
  • 高换手率隐忧:卷积类模型换手率高,交易成本、市场冲击风险增大,实际应用须权衡。

- 集成简单粗暴:采取等权集成,未讨论权重优化或动态调整,可能未挖掘集成潜力全部空间。
  • 风险披露简略:风险提示较为常规,缺少针对深度学习模型特有风险(如过拟合、数据漂移)的深入探讨。


整体看,报告科学严谨,但在方法学细节和后续调优、风险管理建议上还有深化空间。[page::10,14]

---

7. 结论性综合



本报告系统性评估了基于不同深度学习模型训练的选股因子周度选股能力,涵盖卷积(TCN、BiATCN、TimesNet)、Transformer(Transformer、Informer、PatchTST)、线性模型(DLinear、TSMixer等)三大类别,并对比主流RNN模型BiAGRU表现。测试显示:
  • 卷积类模型整体表现最优,尤其BiATCN和TCN模型,周均Rank IC最高、极值组合年化超额收益突出,但伴随更高的换手率,交易成本和流动性风险相应增加。

- Transformer类模型表现优异但略逊于卷积类,经典Transformer最佳,Informer和PatchTST表现稍逊。
  • 线性类模型结构简洁,但表现逊于前两类,TSMixer领先同类,DBiAGRU通过引入线性特征分解取得小幅提升。

- 截面相关性显示因子相似但非完全重合,不同模型对量价数据学习和调整速度差异导致特定时段表现分化。2018年上半年因与低流动性及反转因子相关性偏高,整体表现逊色。
  • 多模型集成有效提高稳健性和选股绩效。通过简单等权集成,BiAGRU组合BiATCN及Transformer模型,因子周均Rank IC提升至0.14+,Top10%和Top100组合年化超额收益分别达到34%及40%左右。

- 基于集成因子的指数增强组合在中证500和中证1000上实现年化超额收益16.5%-25%提升,配合严格权重、因子和行业中性约束,表现稳健,最大回撤和跟踪误差控制合理。

此外,深度学习因子策略仍面临市场系统性风险、流动性风险、政策调整和因子可能失效的挑战,未来在模型调参、超参数优化和风险管理方面仍有改进空间。

本报告为量化投资领域深度学习因子模型的前沿实践提供了翔实的数据支撑和研究框架,强调多模型集成以提升因子多样性和稳健性,是构建高效股票选择因子的有益尝试。

---

本文关键图表部分示例如下:

图1 TCN 网络结构示意图

图7 各模型Top10%组合/BiAGRU模型Top10%组合的相对强弱净值(2018.01-2018.12)

图9 中证500 AI增强组合超额净值走势(2023.01-2023.12)

---

总结:

该份研究报告从模型设计、因子表现实测到集成应用全流程展开,揭示了不同深度学习模型选股因子的异同和优势,提供了务实的投资因子构建和优化路径。尽管面临一定限制和需进一步优化,但其严谨的方法和全面的数据说明,为投资人利用AI与深度学习增强股票组合收益提供了可靠借鉴与实践方向。[page::0-14]

---

溯源说明:本分析严格基于报告中内容条目,引用页码以[page::]形式标注,方便后续内容回溯与校验。

报告