`

“逐鹿”Alpha 专题报告(九)——基于 QLIB ALPHA360 的 Temporal FusionTransformer 选股模型

创建于 更新于

摘要

本文利用 QLIB ALPHA360 因子结合 Temporal Fusion Transformer 模型预测中证500未来一日收益率,通过TopKdropN策略回测,结果显示TFT模型在收益率、信息比率及换手率控制方面均优于传统ICIR加权方法,年化收益最高达19.57%,信息比率1.74,且换手率更低,表现出模型的稳定性与超额收益能力 [page::0][page::3][page::23]

速读内容

  • 数据与因子筛选 [page::3][page::7]

- 采用QLIB提供的两套因子系统ALPHA158和ALPHA360,最终选取ALPHA360表现更优的20个因子作为输入。
- ALPHA360因子IR分布集中且中位数较高,头部20因子IC均值为0.061,IR均值0.391,优于ALPHA158。


| 因子名 | IC | IR | 因子名 | IC | IR |
|--------|-------|-------|--------|-------|-------|
| LOW2 | 0.053 | 0.350 | LOW3 | 0.060 | 0.386 |
| LOW6 | 0.058 | 0.355 | LOW5 | 0.065 | 0.403 |
| VWAP3 | 0.056 | 0.360 | VWAP0 | 0.053 | 0.404 |
| VWAP1 | 0.053 | 0.360 | HIGH4 | 0.066 | 0.406 |
| VWAP6 | 0.058 | 0.360 | VWAP5 | 0.066 | 0.407 |
| OPEN0 | 0.051 | 0.364 | OPEN3 | 0.065 | 0.411 |
| LOW1 | 0.054 | 0.370 | OPEN4 | 0.067 | 0.417 |
| CLOSE6 | 0.060 | 0.371 | CLOSE5 | 0.067 | 0.418 |
| OPEN5 | 0.060 | 0.373 | CLOSE4 | 0.067 | 0.424 |
| HIGH5 | 0.061 | 0.380 | LOW4 | 0.068 | 0.428 |
  • TFT模型及训练细节 [page::8][page::10][page::11][page::17]

- TFT改进自Transformer,专门针对时间序列预测设计,支持多变量输入(静态、观测和已知未来变量)、多步预测和分位数输出,具备可解释性。
- 以LSTM Encoder替代原Transformer的Positional Encoding + Attention组合,采用Masked Multi-head Attention改进,自定义损失函数加权不同分位数误差。



- 输入为ALPHA360精选20因子及日期等时间特征,训练集使用2010-2015年数据,验证集2016-2017年,测试集2018-2021年。
- 训练批次512,单个Epoch耗时约20分钟,较大样本量加速收敛,模型在2个epoch后达到验证集误差最小。
  • 模型性能对比分析 [page::15][page::16][page::18][page::20][page::22][page::23]

- 以TopKdropN策略进行买卖操作,ICIR加权与TFT模型回测对比:
- ICIR权重策略(参数k=50,N=5)年化收益8.92%,最大回撤26.33%,换手率37.34,信息比率0.53。

| 指标 | ICIR加权 |
|-------------|------------|
| CAGR | 8.92% |
| ExMDD | 21.65% |
| MDD | 26.33% |
| Alpha | 4.92% |
| Beta | 1.05 |
| Stdev | 0.26 |
| Sharp | 0.50 |
| IR | 0.53 |
| Turnover | 37.34 |

- TFT策略(k=50,N=5)年化收益15.94%,最大回撤29.43%,换手率17.36,信息比率1.22。

| 指标 | TFT(50,5) |
|-------------|------------|
| CAGR | 15.94% |
| ExMDD | 23.31% |
| MDD | 29.43% |
| Alpha | 11.94% |
| Beta | 1.02 |
| Stdev | 0.25 |
| Sharp | 0.82 |
| IR | 1.22 |
| Turnover | 17.36 |

- 换手率调节优化实验:
- 换手N值提高,换手增加而收益下降,超过N=7换手率超过70倍,手续费侵蚀导致亏损。
- 换手N=1,年化收益率达19.57%,信息比率1.74,换手率明显降低至4.6,风险控制较好。

| 指标 | TFT(50,1) |
|-------------|------------|
| CAGR | 19.57% |
| ExMDD | 16.90% |
| MDD | 25.99% |
| Alpha | 15.57% |
| Beta | 0.99 |
| Stdev | 0.24 |
| Sharp | 1.00 |
| IR | 1.74 |
| Turnover | 4.60 |
  • 结论总结 [page::23]

- TFT模型基于ALPHA360因子,表现优于传统因子加权方法,兼顾收益和风险,且易调节换手率达到投资者策略需求。
- 通过QLIB框架验证及实际训练,模型具备稳定性和实用性,展现出深度量化模型应用于股票市场的潜力。

深度阅读

“逐鹿”Alpha专题报告(九)——基于 QLIB ALPHA360 的 Temporal FusionTransformer 选股模型详细分析



---

1. 元数据与概览


  • 报告标题:“逐鹿”Alpha专题报告(九)——基于 QLIB ALPHA360 的 Temporal FusionTransformer 选股模型

- 作者:丁鲁明(主要分析师)、王超(研究助理)
  • 机构:中信建投证券

- 发布日期:2022年5月24日
  • 主题:利用微软亚洲研究院开发的开源量化平台QLIB的ALPHA360因子结合Temporal Fusion Transformer(TFT)深度学习模型,针对中国中证500成份股未来一日收益率进行预测和选股策略开发。


核心论点
本文核心在于提出并验证基于TFT模型的Alpha因子预测,相比传统的ICIR加权方式,TFT模型在收益、风险调整收益、换手率三个方面表现更优。文章最后通过参数调整,实现低换手率环境下的策略优化,使得策略成为兼顾收益与换手率的有效中高频选股工具。总体立场是积极推荐基于深度学习的时间序列预测方法用于量化选股,展现其超越传统因子加权的潜力。[page::0,3,23]

---

2. 逐节深度解读



2.1 简介与数据介绍


  • 简介部分强调了深度学习技术及其在机器学习、语音、推荐系统等领域的广泛成功。Transformer模型因其深度注意力机制,特别是在NLP领域表现突出。术语Temporal Fusion Transformer(TFT)是2021年由GOOGLE CLOUD AI推出来特别针对时间序列预测设计的变种,能处理多种输入变量,完成多步分位数预测。

- 数据介绍详细介绍了QLIB平台,特别是提供两套量价因子系统——ALPHA158和ALPHA360。两者区别在于ALPHA158侧重传统技术指标,ALPHA360侧重暴力组合多指标的因子构造,ALPHA360表现更优。数据来源涵盖雅虎财经、美股和A股数据,结构清晰为特征数据、日历和成份股信息,支持高效存储和自定义导入。表达式功能通过算子定义大幅简化因子定义和计算流程。[page::0,3,4,5,6]

2.2 因子筛选


  • 利用WIND数据替代原有雅虎财经数据计算后,通过因子信息系数(IC)和信息比率(IR)对ALPHA158和ALPHA360因子性能进行比较。

- 图表5、6显示ALPHA360的IR中位数虽然略低于ALPHA158,但其IC中位数明显高于ALPHA158,且由于因子定义较为接近,标准差更小,表现更稳定。
  • 挑选表现最优的20个ALPHA360因子作为模型输入,具体因子说明如LOW、VWAP、OPEN等多个时间窗口参数的组合因子。

- 作者指出,IC能反映因子线性信息,但深度学习能挖掘非线性信息,因而基于IC的筛选虽不最优,但作为对比传统线性方法的公平标准依然合理。[page::7,8]

2.3 模型介绍


  • Transformer简介:自2017年Attention is All You Need提出以来,Transformer广泛应用于NLP、图象处理等领域。其基于多头自注意力机制,能够并行处理输入信息,优于传统RNN的顺序处理优势。

- 图表8详细展示了Transformer编码器-解码器结构,特别强调了位置编码用于保留序列的时序信息。
  • 图表9显示Transformer相较于CNN模型,数据规模巨大时展现更强泛化能力,表明它适合大数据时代的复杂任务。

- 时间序列Transformer变体(Informer、LogTrans等)覆盖位置编码、注意力机制和架构多方面,广泛应用于预测、异常检测和分类。
  • TFT作为一种针对时间序列的Transformer改进,集成了静态变量、观测变量和已知未来变量的输入,兼具多步和分位数预测能力,还带解释性输出。图表10展示时间序列Transformer的分类体系。

- 作者逐层详细介绍了TFT架构(图表11、12):
- 输入层实现了静态变量编码和变量选择网络(VSN),实现输入变量加权选择;
- Encoder采用LSTM替代位置编码+Attention的组合,以强化时序结构处理能力,尽管牺牲并行性能;
- Decoder改良多头Attention为共享权重的算数平均结构,增强模型解释性,变量重要性可直接由共享矩阵推导;
- 损失函数基于分位数损失函数的加权求和,支持分位数预测,利于风险控制。
  • 训练细节中,数据归一化、训练集与验证集划分,使用GPU训练,EPOCH约20分钟耗时,较快收敛主要由样本大与信噪比低特性驱动。[page::8,9,10,11,12,13,17]


2.4 模型比较与训练


  • QLIB集成大量模型(Zoo)并在ALPHA158和ALPHA360上进行横向对比。

- ALPHA158数据集上,TFT表现处于中游,领先于部分网络但落后于DoubleEnsemble、HIST等集成或复杂模型(图表14)。
  • ALPHA360表现类似,TFT没有绝对优势(图表16)。

- 链接自身开发框架,采用20个ALPHA360因子,同时添加日期相关的已知未来变量,调参细节公开,保证实验可复现。
  • 训练曲线(图表17、18)显示训练误差快速收敛与验证误差拐点现象,反映股票收益时间序列的噪声特征与训练限制。[page::14,15,16,17]


2.5 策略构建与回测结果


  • TFT输出未来一日收益率预测分位数,基于TopKdropN 策略智慧管理仓位。即:初始买入K只股票,之后每天卖出N只得分最低,同时买入N只得分最高股票,实现换仓和选股平衡。

- 传统对比基准:基于20因子ICIR加权(等权合成大因子),参数K=50,N=5;回测期间2018年1月29日至2021年12月31日,中证500成份股池,手续费双边千分之二,净值增长缓慢但波动大,信息比率仅0.53,换手率高达37.34倍(图19、20)。
  • TFT(50,5)策略净值明显优于ICIR,加权年化收益率15.94%,超额11.94%,信息比率1.22,换手率17.36,回撤控制合理(图21、22)。

- 进一步通过调整N参数研究换手率对策略表现影响(图23、24):
- 换手率随着N递增迅速提升,超过70倍后收益迅速下滑变负;
- 换手量在20倍以下时,收益较稳定,N=1时收益最高。
  • TFT(50,1)策略年化收益率19.57%,超额达15.57%,信息比率1.74,换手率仅4.6,最大回撤约26%,整体风险收益指标进一步优化(图25、26)。

- 相较ICIR加权,TFT模型学习到了非线性复杂信息,具备优异的时序预测能力和交易信号形成能力,策略优化显著进步,交易成本可控。[page::18,19,20,21,22,23]

2.6 结果讨论


  • 综上,作者确认基于QLIB的ALPHA360因子结合Temporal Fusion Transformer模型的选股策略优于传统线性加权方法。

- TFT策略不仅带来显著年化收益提升,同时通过策略参数优化实现低换手率稳定交易,风险控制优异。
  • 数据支持和模型集成的便利性使得QLIB成为进行深度学习量化研究的良好平台。作者表示后续将继续展开其他时间序列Transformer的比较研究并扩展应用。

- 多维度对比数据(图表27)体现出TFT (50,1)整体超越ICIR加权方案。
  • 报告中同时附带详细的分析师介绍及法律披露,保证研究的专业性与合规性。[page::23,25]


---

3. 图表深度解读



图表0(市场表现图,页0)


  • 展示2016年6月至2017年5月上证指数(红线)和国债指数(蓝线)表现差异,上证指数波动较大,整体趋势上扬,提供背景市场走势参照。


图表1(QLIB框架图,页4)


  • 描述QLIB整体结构:包含基础数据存储和训练模块(基础层)、量化投资决策流程(中间层:信息提取、预测、决策生成、执行)、及分析与接口模块(上层)。

- 突出数据服务模块和因子提取模块为本研究主要用到部分,确认数据和因子系统基础支撑。

图表2(数据存储结构示意,页5)


  • 展示以股票代码为单位的二进制文件高效存储因子数据结构,简化了时间序列因子存储和更新机制,支持快速访问和计算。


图表3(算子列表,页6)


  • 介绍QLIB支持的基础算子,包括单目、双目及滚动运算符,方便定义复杂因子表达式。


图表4(ALPHA158与ALPHA360对比,页6)


  • 列举两套因子的典型代表及公式,反映ALPHA158为常用技术指标,ALPHA360为暴力组合构造,提升因子多样性。


图表5-6(IC和IR分布,页7)


  • 箱线图呈现两因子集的线性预测力分布,ALPHA360 IC中位数高且波动小,IR中位数略低,但在后续策略表现中表现更好,辅助因子筛选判断。


图表7(选取的ALPHA360前20因子列表,页7)


  • 给出因子名及其IC与IR值,明确模型输入特征。


图表8(Transformer结构图,页8)


  • 详尽展现Transformer Encoder-Decoder架构,重点位置编码保障信息时序性。


图表9(Transformer与CNN对比,页9)


  • 展示在ImageNet数据集中,数据越大,Transformer越表现优越,图证全新深度学习架构的泛化能力。


图表10(时间序列Transformer分类图,页10)


  • 结构清晰区分网络层面改造和应用领域,突出Transformer多样化改进方向。


图表11(TFT输入类型,页11)


  • 通过流程图说明静态协变量、过去观测值和已知未来输入在多步预测中扮演角色。


图表12(TFT模型结构,页11)


  • 细节可见模型层次,变量选择网络、LSTM编码器、改进的多头Attention、门控残差网络等模块协同作用。


图表14-16(模型表现比较,页15-16)


  • 表格显示不同机器学习模型在ALPHA158和ALPHA360上的IC、信息比率及年化收益,说明TFT虽然表现中庸,但仍在一定范围内。


图表17-18(训练和验证误差曲线,页17)


  • 训练loss逐步下降,验证loss第二轮达到最低后上升,反映股票收益噪声大,过拟合风险高。


图表19-20(ICIR加权策略回测绩效,页19)


  • 净值曲线显示策略超越基准波动较大,统计数据反映换手率过高且信息比率偏低,表现有限。


图表21-22(TFT(50,5)回测表现,页20)


  • 净值提升明显,信息比率翻倍,换手率约为ICIR加权的一半。回撤虽略增,但总体收益风险稳定性提升。


图表23-24(收益率及换手率对比,页21)


  • 策略表现随着换手率提高先增后降,换手率超过70时,成本侵蚀导致负收益,建议参数控制换手率。


图表25-26(TFT(50,1)策略表现,页22)


  • 净值曲线更为稳健,最大回撤进一步降低至25.99%,信息比率达1.74,换手率显著降至4.60,效果最优。


图表27(策略对比表,页23)


  • 综合对比ICIR加权与TFT(50,1):TFT策略CAGR、Alpha、Sharpe及IR均远超传统策略,Beta及换手率均更优,直接体现深度学习建模的优势。


---

4. 估值分析



本报告着重于量化模型的效果和策略表现,未涉及公司或行业估值部分,故此部分不适用。

---

5. 风险因素评估


  • 历史数据有效性风险:报告强调所有模型结果基于历史数据,未来有效性不保证,模型预测不确定性较高。[page::0]

- 模型训练局限:训练误差迅速收敛的背后是信噪比低和非稳定的市场模式,存在过拟合风险,模型泛化能力有限。[page::17]
  • 换手率与手续费影响:高换手率策略会因手续费导致收益下降甚至亏损,交易成本敏感限制了部分策略的实际应用可能性。[page::21]

- 样本选择和因子固定风险:因子选择基于IC指标,未完全挖掘非线性信息,因子定义固定可能未捕捉市场所有风险因素。[page::8]
  • 模型参数依赖:深度模型参数调优影响结果稳定性,报告中未详述所有超参灵敏性,模型可能对特定参数依赖较强。[page::14,17]


报告未提供具体缓解方案,风险提示主要告知模型限制和投资决策需谨慎。

---

6. 批判性视角与细微差别


  • 报告选择基于QLIB平台内置因子和公开数据,依赖于WIND替代雅虎财经数据,可能存在样本偏差或缺失,影响模型表现。

- TFT模型虽然结构先进,并带可解释性设计,但对硬件(GPU)和计算资源需求较高,训练成本不低。
  • 模型训练中使用LSTM替代标准Transformer位置编码与注意力机制对比,权衡并行计算与时序特征捕捉,但并行性降低可能限制更大规模应用。

- 因子筛选仍用IC作为筛选指标,表面上与深度模型主张的非线性特征捕获存在一定矛盾,筛选机制的局限应引起重视。
  • 多个模型在ALPHA360和ALPHA158表现参差不齐,TFT未能在所有维度显著领先,支持更全面比较和参数调优研究。

- 换手率和收益权衡虽测试多参数,但没有清晰说明手续费差异对实际收益的影响,交易成本估计较粗略。
  • 报告整体系统完整,但部分关键技术细节解释较为简略,模型内部具体实现细节、超参选择逻辑未详,可能影响复现力度。


---

7. 结论性综合



本报告系统性地论证了基于微软亚洲研究院QLIB平台上ALPHA360高效因子的深度学习时间序列模型——Temporal Fusion Transformer(TFT)在中国中证500成份股未来一日收益率预测及选股策略中展现出的超越传统线性ICIR加权策略的性能优势。
筛选表现最佳的20个ALPHA360因子,模型结合静态变量和未来信息,采用LSTM编码器和改良多头注意力机制,实现多步分位数预测,具备较强可解释性和风险控制功能。训练基于超过60万的样本,通过GPU实现高效计算,模型训练曲线显示快速收敛特征。
回测结果显示,TFT策略在等仓位的TopKdropN机制下,相较于ICIR线性加权方法,实现了年化收益率由8.92%跃升至最高19.57%;信息比率从0.53提升至1.74;换手率大幅下降至约4.6倍,兼顾收益稳定性和交易成本。回撤控制也优于传统方法,表现符合中高频交易策略需求。
图表27的综合数据显著体现了TFT模型在收益率、风险调整后盈余和交易效率上的优势,充分说明深度学习结合时间序列Transformer架构的前沿技术带来了量化选股策略质的飞跃。
不过,报告也谨慎指出模型依赖于历史数据、存在过拟合风险,交易成本和参数调节对策略效果影响显著,提示投资者需理性评估应用场景和模型适用边界。
该研究显示,利用开源量化平台和最新深度学习模型进行股市多因子选股具有巨大潜力,中信建投证券团队计划继续深入研究其他Transformer变种,进一步提升量化投资策略的科学性和实用性,具备重要的理论价值和实务应用意义。[page::0–25]

---

总结



本文围绕基于QLIB的ALPHA360因子,结合Temporal Fusion Transformer模型构建股票未来收益率预测模型进行深入分析,详细介绍了因子选取、模型架构、训练过程及回测结果。通过多张图表支持,充分展现了深度时间序列模型在量化投资中的有效性和前景。此报告为金融工程领域量化策略研发和AI实践提供了重要参考,具有较强技术深度与实证意义。

---

主要引用页码


[page::0,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25]

报告