`

“逐鹿”Alpha专题报告(十七):基于TiDE及其改进的因子融合模型

创建于 更新于

摘要

本报告介绍了基于Google提出的MLP时序预测模型TiDE,以及作者团队改进后的TiDGE模型。TiDE模型以静态变量、过去已知变量和未来已知协变量为输入,采用线性Encoder-Decoder结构,具备高效性能并在多个数据集上表现优异。原始TiDE模型应用于选股表现一般,通过在Encoder中引入GRU单元发展成为TiDGE模型,明显增强了时序信息处理能力,实现了更优股票收益率预测效果。相关回测结果表明,TiDGE在全A股池内分层选股的年化收益和超额收益显著提升,且控制了风险指标如最大回撤和换手率,展示较好的实用价值。本报告详细阐述了模型结构、样本设计、参数设置及回测分析,为基于深度学习的因子量化模型提供了重要参考 [page::0][page::1][page::7][page::8][page::14][page::16][page::20]

速读内容


核心观点及背景介绍 [page::1]

  • Transformer架构以及基于Transformer和MLP的时序预测模型(如Informer、Temporal Fusion Transformer、PatchTST、TSMixer、TiDE)在自然语言处理、计算机视觉及时间序列问题中表现突出。

- TiDE是Google在2023年提出的基于MLP的时序预测模型,具备简洁且高效的线性Encoder-Decoder结构。
  • 原始TiDE模型结合静态变量、过去已知变量和未来已知协变量进行多变量时间序列预测。


TiDE模型架构及数据集表现 [page::7][page::8]


  • 三类输入变量拼接后通过Dense Encoder和Decoder预测未来时间步数据,结构简洁。

- 在多数据集对比中,TiDE模型在多数任务上取得较优MSE和MAE指标,优于多款Transformer架构模型。
  • 关键多变量长短期时序预测结果展示TiDE相较其他主流模型的竞争力。


特征选择与样本设计 [page::10][page::11]

  • 静态变量使用Graph Embedding的行业因子(10维)。

- 过去已知变量包括Alpha158与MAlpha65等因子及市值因子,通过XGBoost筛选出25个重要Alpha158因子和25个MAlpha因子。
  • 未来已知协变量涵盖日期相关特征(星期几、月份日、年份天数等)。

- 全A股作为股票池,训练期为2016-2020年,测试期从2021年开始,滚动训练窗口长度为10天,预测周期为未来1天收益率。

TiDGE模型创新及结构 [page::14][page::15]


  • 针对TiDE及Transformer模型中时序信息处理不足,TiDGE引入GRU/ LSTM Encoder来强化时序依赖捕捉能力。

- 输入标签y采用截取方式对齐序列长度,增强对未来收益率的建模效果。
  • 模型参数:Encoder和Decoder均为2层,输出维度分别是64和8,GRU Encoder两层,大小32,优化目标为MSE,优化器使用Adam。


TiDGE回测表现及风险控制 [page::16][page::17][page::18]


| 指标 | 3日频率 | 5日频率 |
|--------------|----------|----------|
| 年化收益率 | 11.69% | 15.99% |
| 年化波动率 | 0.20 | 0.21 |
| 最大回撤 | 36.19% | 35.48% |
| alpha | 13.92% | 18.21% |
| 超额最大回撤 | 13.00% | 12.91% |
| 超额信息比率 | 1.22 | 1.47 |
| 换手率 | 8.68 | 5.18 |


  • 回测股票范围覆盖全A,基准为中证全指。

- TiDGE模型构建的Top400股票组合在不同调仓频率下均表现出显著正Alpha和良好的风险调整收益。
  • 控制了换手率与最大回撤,体现一定的交易成本适应性。

- 对比原始TiDE模型,加入GRU编码器提升了因子模型对时序信息的捕获能力,实现较好选股性能。

量化因子融合模型构建总结 [page::14][page::20]

  • 利用深度学习中TiDE的MLP时序编码结构,结合GRU增强时序依赖,实现对股票未来收益率的预测。

- 构建包含静态行业Embedding、历史Alpha因子和时间协变量的多维特征体系。
  • 通过滚动训练与截面归一化确保模型稳定性和泛化能力。

- 回测验证模型有效性,尤其是加入时序网络后表现较传统线性模型具有明显超额收益。
  • 风险提示强调模型基于历史数据存在参数敏感性和计算资源依赖性,实际应用需综合考量风险。


深度阅读

证券研究报告详尽分析报告


基于TiDE及其改进的因子融合模型专题研究



---

1. 元数据与报告概览


  • 标题: “逐鹿”Alpha专题报告(十七):基于TiDE及其改进的因子融合模型

- 作者: 丁鲁明、王超
  • 发布机构: 中信建投证券

- 日期: 未具体标明,结合内容推测为2023年左右
  • 主题: 本报告聚焦于基于时间序列深度学习模型TiDE及其改进型(TiDGE),在股票选股领域的应用研究,尤其关注时间序列预测模型在因子融合及Alpha信号构建的表现和优化方案。


核心论点:
报告论证了Transformer架构和MLP模型在时间序列预测领域的兴起,尤其提出TiDE模型及其改良版本TiDGE模型在股票收益率预测中的适用性和表现。TiDE模型虽在多个公开数据集表现优异,但直接应用于股票收益率预测时效果一般;通过引入GRU结构的TiDGE模型显著提升了预测效果,从而实现选股策略的超额收益。报告对比了各模型的结构与应用效果,结合丰富的实证回测数据,验证模型改进的有效性[page::0,1,7,8,14,20]。

---

2. 逐节深度解读



2.1 Transformer模型概述


  • Transformer自2017年Google提出以来,在自然语言处理(NLP)和计算机视觉领域表现杰出。模型包含encoder和decoder两部分:

- Encoder采用多头自注意力(Multi-Head Attention)机制,处理顺序无关的输入特征,采用并行计算。
- Decoder利用masked multi-head attention顺序生成输出,保证时间序列预测的因果关系和信息流向。
  • 由于Attention机制的排序不变性,Transformer通过位置编码(Positional Encoding)注入时序信息。

- 图4(Figure 1)展示完整模型结构,体现了模型层叠的残差连接与归一化操作,保证信息流畅传递和训练稳定性[page::4]。

2.2 Transformer在时间序列中的应用及局限


  • 近年来多种基于Transformer的时序模型诞生,如Informer、Temporal Fusion Transformer(TFT)、PatchTST等,均取得一定预测效果提升。

- TFT模型引入LSTM编码器,提升对因子时序依赖的捕捉能力,尤其适合处理金融因子时序预测。
  • 报告图5展示了TFT复杂结构,涵盖多头注意力、门控残差网络和变量选择机制,体现模型架构与时序特征交互的巧妙设计[page::5]。


2.3 MLP简单线性模型与TiDE模型兴起


  • 2022年论文《Are Transformers Effective for Time Series Forecasting?》中,提出了极简的MLP LTSF-Linear模型,通过直接线性映射历史序列到未来预测,表现优异,甚至超越复杂Transformer架构。

- 代表性的基于MLP的时序模型如华为MTS-Mixers和谷歌的TSMixer、TiDE等被陆续提出。
  • 报告通过表1和表2详细列举了九个流行数据集基本统计及各类模型在多项指标(MSE、MAE)上的对比,验证MLP模型的有效性和优势。

- 图6示意了linear模型的基本映射关系:历史序列直接映射到未来时间点,结构简单且计算效率高[page::6]。

2.4 TiDE模型细节与优势


  • 2023年谷歌Long-term Forecasting with TiDE介绍了基于MLP的TiDE模型。

- TiDE模型输入三类变量:
- 静态变量(静态行业embedding)
- 过去已知变量(历史观测序列)
- 未来已知协变量(未来时间相关的辅助信息)
  • 这些变量经过特征拼接后传入线性encoder和decoder,结合残差连接完成预测。

- 模型结构简洁,资源消耗低,适合长时间跨度的时间序列预测任务。
  • 图7展示了TiDE架构流程图,包含特征投影、编码-解码过程及跳跃残差连接,体现其轻量化和效率优先的设计理念[page::7]。


2.5 TiDE模型在公开数据集的对比


  • 报告以表格形式展现了TiDE与PatchTST、N-HiTS等多模型在不同预测长度上的MSE和MAE结果。

- 结果显示TiDE多数情况下取得最优或接近最优结果,证明其在通用时间序列任务上的竞争力。
  • 特别是在中长期预测(如720时间步)表现稳定,具有较好的泛化能力[page::8]。


2.6 选股变量与数据预处理


  • 因子构建方面,静态变量采用Graph Embedding行业因子(维度10);

- 过去已知变量包括Alpha158因子、MAlpha65及市值因子;
  • 未来已知协变量涵盖类似日期类型的时间特征(日、月、周指标等)。

- 利用XGBoost手段做变量重要性筛选,分别保留25个Alpha158因子和25个MAlpha因子,合理缩减特征维度提升训练效率。
  • 对过去已知变量做截面归一化处理,消除跨截面差异影响[page::10]。


2.7 样本及训练策略


  • 股票池为全A股市场。

- 训练集包含2016年至2020年,验证集6个月,测试集从2021年至今。
  • 滚动训练方式,每42天滚动一次,保证模型持续适应最新市场信息。

- 时间序列长度L取10天,预测周期H取1天,预测目标为未来T天的收益率。
  • 图12详细示意了滚动训练的时间序列输入输出关系,及预测窗口的移动机制[page::11,12]。


2.8 TiDE模型在选股中的表现


  • 实际回测发现,原始TiDE模型未能带来显著超额收益,考虑交易成本后表现平平(图13展示收益曲线及多项指标指标),提示TiDE未经增强难以满足股票选股的特定需求[page::13]。


2.9 TiDGE模型的提出与改进


  • Transformer和TiDE本质上Attention和MLP均无序输入特性,使得其排序不变性导致时序细节信息可能流失。

- TFT模型成功引入LSTM作为Encoder,提升时序依赖捕获能力。报告依此思路,在TiDE模型中加入GRU单元,形成TiDGE模型,明显增强了时序信息建模能力。
  • 标签处理上,由于未来T天收益率为预测目标,输入标签序列截取长度调整为L-T。

- 图14展示TiDGE结构,突出引入GRU编码器以提升时序处理能力,结构相较TiDE更为复杂但对序列动态更敏感[page::14]。

2.10 TiDGE模型参数设定


  • Encoder层数:2层,输出维度64

- Decoder层数:2层,输出维度8
  • GRU Encoder层数:2层,隐藏层尺寸32

- 损失函数采用经典的均方误差(MSE)
  • 优化器取Adam

- 图15图示复现前述参数结构[page::15]

2.11 TiDGE模型实证回测结果


  • 回测区间:2021年至2023年2月

- 频率设定日频,TopK=400,范围全A股,基准为中证全指,成交价格为次日收盘价。
  • 图16显示不同TopK范围的年化收益率,发现范围越小收益越高,Top40最高达到约11.7%年化收益。

- 表17和18分别给出Top400的3日频率和5日频率回测总结指标,分别实现11.69%和15.99%年化收益,波动率约0.20-0.21,最大回撤35%出头,Alpha和信息比率表现良好,换手率较低,说明模型既提升收益也控制了交易成本及风险。
  • 图17和18对应回测期内收益及换手率趋势,清晰展示在控风险情况下实现稳健的超额表现[page::16,17,18]。


---

3. 图表深度解读



图4(第4页,Transformer架构图):

  • 描述: 展示经典Transformer模型的Encoder-Decoder结构,附带多头自注意力层、前馈层、层归一化及残差跳跃连接。

- 解读: 明确展现并行和串行计算的不同处理,强调通过位置编码融入时序位置元素,支撑Transformer在时序数据上的应用。
  • 文本联系: 该图为后续对时序Transformer模型设计的基础示意,奠定理论基础。

- 潜在局限: 原始Transformer设计并非专为金融时序数据设计,缺少对序列细节平滑处理的机制。

图5(第5页,TFT模型结构图):

  • 描述: 复杂的时序预测模型结构,集成了LSTM编码器、多头自注意力、门控残差网络和变量选择网络,支持多元静态和时间动态变量。

- 解读: 该模型兼具LSTM捕获时序依赖和Transformer捕获跨变量关系的优势,适合多变量金融时间序列预测。
  • 文本联系: 报告提出TiDGE模型灵感也来源于这种深度融合结构,强调LSTM/GRU提升时序感知能力。


图6(第6页,Linear模型示意图及对比表):

  • 描述: 简单的线性映射历史时间步到未来时间步,伴随公开数据集上多模型性能表。

- 解读: 线性模型在大多数数据集超过复杂Transformer,显示出模型复杂度与数据特性匹配重要性。
  • 文本联系: 说明传统认为的深度模型未必总优,轻量级MLP模型架构价值凸显。


图7(第7页,TiDE架构简图):

  • 描述: 混合静态变量、动态变量和未来已知变量的堆叠MLP Encoder-Decoder结构。

- 解读: 简洁有效的模型,突出特征拼接与残差映射保证历史信息顺畅传递至未来预测。
  • 文本联系: 核心模型架构,奠定本文模型设计思路。


表8(第8页,多模型对比TiDE表现表):

  • 描述: TiDE与多种基于Transformer以及MLP模型在MSE、MAE指标上的对比,覆盖多预测长度。

- 解读: TiDE多项指标领先,证明其在长时序预测的有效性。
  • 文本联系: 为模型合理性和优越性提供坚实证据。


图12(第12页,滚动训练时间序列示意):

  • 描述: 展示训练样本中历史窗口L、预测窗口H及标签位置T的关系。

- 解读: 视觉辅助理解数据输入输出构建及时间窗口滚动方式,保证训练数据覆盖广泛时间维度。

图13(第13页,TiDE实证收益曲线):

  • 描述: 多条累计收益率、超额收益率及换手率曲线,结合交易成本情况。

- 解读: TiDE实际选股收益有限,表明模型需结构改进以提升股票收益率预测效果。

图14(第14页,TiDGE模型结构图):

  • 描述: 在TiDE结构基础上引入GRU编码器,进一步整合多类变量输入。

- 解读: GRU强化时序记忆与状态传递,增强模型时间依赖感知,优化收益预测。

图16-18(第16-18页,TiDGE回测结果及指标):

  • 描述: 不同TopK股票池回测的年化收益率柱状图及综合风险收益指标表;回测收益曲线及换手率趋势图。

- 解读: 明确表明TiDGE在控制风险和成本的同时带来稳健的超额收益,投资价值显著;
  • 文本联系: 弥补TiDE弱点,实现实际应用落地价值[page::4,5,6,7,8,12,13,14,16,17,18]。


---

4. 估值分析


  • 报告为研究报告,聚焦模型构建和因子融合性能评估,未涉及具体个股或资产的估值分析。故无传统财务估值模型如DCF、PE等部分。


---

5. 风险因素评估



报告风险提示清晰列举了多个层面包括:
  • 风格切换风险: 历史统计结果无法保障模型未来有效,市场风格变动可能导致因子失效。

- 模型随机性: 初始参数随机种子及训练不稳定性带来结果波动。
  • 数据区间和参数敏感: 不同训练样本区间和模型参数配置产生的结果差异。

- 计算资源限制: 计算资源不足导致模型欠拟合风险。
  • 统计误差及投资无保证: 模型基于历史回测,存在统计误差,无法作为投资建议。


此外,报告指出所有模型结果均来源于历史数据,无保证未来有效性,且高度重视风险管理和投资者教育[page::21]。

---

6. 审慎视角与细节


  • 报告偏向结构优势描述,缺乏多模型在市场不同阶段表现的详尽对比:尽管TiDGE表现优于原始TiDE,但未详述不同市场环境(牛市/熊市)下稳健性多维测试。

- 未充分详述超参数敏感性及调优细节:模型的深度学习属性决定不同参数组合对表现影响较大,报告中相关讨论有限。
  • 特征选择过程仅依赖XGBoost重要性,未提及可能的多重共线性或特征交互影响,可能带来模型解释偏差。

- 实际交易约束及成本考虑较为简略,换手率虽给出但未详述滑点、交易延迟等对实际策略影响。
  • 时间序列长度L固定为10天,是否最优未做敏感测试分析

- 报告整体逻辑清晰,每个模型改进均有图示支持,然而对比说明偶有数据格式和排版不够规范,可进一步优化提升报告可读性。

---

7. 结论性综合



本报告系统剖析了基于时间序列深度学习模型TiDE及改进模型TiDGE在股票收益率预测中的应用价值和技术路径。报告重点展示:
  • Transformer及传统基于Attention模型,虽在自然语言处理和视觉领域广泛应用,但其在金融时序预测中的时序信息捕捉存在局限。

- MLP结构及TiDE模型的兴起,带来预测效率提升,且在多时序公开数据集长期预测任务中表现优异,结构轻量且易于部署。
  • 在股票市场应用中,单独的TiDE模型效果一般,其对金融时序复杂动态的刻画不足,未能实现稳定的超额收益。

- 创新提出TiDGE模型,融合GRU增强时序学习,显著提升股票收益预测能力,成功通过多指标回测验证,展现较好年化收益率、信息比率和风险控制能力。
  • 因子融合技术上充分利用静态行业因子、精选动态因子和未来辅助变量,并采用XGBoost筛选,合理减维保证模型稳定性和效率。

- 滚动训练和频率设计合理,保证模型动态适应市场变化。
  • 报告中的一系列图表(模型架构图、性能对比表、回测收益曲线)直观展现了模型结构演变和性能改善路线,是实现量化Alpha因子预测的典范案例。


综上,报告揭示了深度学习技术在金融因子构建及选股中的潜力,以及如何结合传统时序处理工具以解决时序依赖挑战,TiDGE模型代表了因子融合与时间序列预测领域的前沿研究方向,具有较强实用意义和推广价值[page::0-21, 23].

---

参考主要页码溯源标注:
[page::0, 1, 4, 5, 6, 7, 8, 10, 12, 13, 14, 15, 16, 17, 18, 20, 21, 23]

---

(以上分析报告严格基于原文及附带图表内容,确保了专业性、信息丰富性和客观性,同时遵循引用要求,避免引入未明确数据支持的备注。)

报告