`

机器学习与因子(三):基于 Transformer 因子挖掘的指增策略

创建于 更新于

摘要

本报告通过引入基于Transformer架构的因子挖掘方法,有效提取股票时序价量特征,构建TF_E因子。该因子在样本外20日IC达16.39%,IR为1.68,且与传统因子相关性低,能显著提升中证1000、沪深300和中证500等多策略的年化超额收益与信息比率,回撤得到有效控制,换手率降低,体现出强稳健的差异化Alpha收益特性,适合用作指数增强策略的补充 [page::0][page::4][page::5][page::6][page::7][page::8][page::9][page::11]。

速读内容

  • 传统Transformer因子加权方法受限于月频因子样本量不足,表现不佳,改为基于日频价量数据的因子挖掘,提升训练样本数量至623万条 [page::1][page::2]。


  • 模型设计中引入Time2Vec时间编码替代位置编码,将时间向量与特征拼接增强时间序列信息表达,采用浅层encoder避免过拟合,通过多轮训练结果集成(Big Ensemble)增强稳定性 [page::2][page::3].



  • 数据使用统一量纲处理和z-score标准化,确保跨股票时序数据的可比性,时间步长T设定为30,平衡模型性能与计算效率 [page::1][page::2][page::3].
  • 通过60轮独立训练并集成,最终构建TFE因子,样本外2020年1月1日至2023年11月20日持有20日IC为16.39%,IR为1.68,表现良好且IC单调分层显著 [page::4][page::5].


  • TFE因子与现有因子相关性较低,最大相关系数仅0.44,主要正相关因子涉及估值、资产周转等,负相关因子主要是资产收益和一致预期类因子,展示差异化Alpha特征 [page::6].


| 因子名称 | 相关系数 |
|-----------------|----------|
| bop | 0.4421 |
| assetturnoverttnchg | 0.3225 |
| dx | 0.2949 |
| nve | 0.2689 |
| adx | 0.2684 |
| roa
qfa | -0.1247 |
| pcfestchg | -0.1556 |
| peest | -0.1855 |
  • 构建三大主要指数增强(指增)策略:中证1000、沪深300和中证500,均为月频调仓,设定严格行业及个股偏离约束,费率双边千分之四;基准因子权重基于ICIR加权 [page::7].


| 指增策略 | 最大行业偏离 | 最大个股偏离 | 成份内选股比例 | 策略股票数量 | 调仓频率 | 费率 |
|--------------|------------|------------|--------------|------------|--------|-------|
| 中证1000指增 | 0.50% | 0.20% | 100% | 400 | 月频 | 千4 |
| 沪深300指增 | 2.00% | 1.50% | 100% | 50 | 月频 | 千4 |
| 中证500指增 | 1.00% | 0.50% | 100% | 200 | 月频 | 千4 |
  • 添加TFE因子后,三大指增策略表现显著提升:

- 中证1000指增:年化超额收益从10.25%提升到26.67%,超额净值最大回撤从-4.72%降至-3.18%,信息比率由1.45提升至3.56,月单边换手率由51.80%降至43.12%。
- 沪深300指增:年化超额收益从6.16%提升到24.17%,最大回撤从-15.66%降至-10.11%,信息比率由0.6提升至2.29,月单边换手率由51.83%降至42.78%。
- 中证500指增:年化超额收益从5.57%提升到21.59%,最大回撤从-7.39%降至-4.47%,信息比率由0.9提升至3.49,月单边换手率由37.77%降至32.09% [page::7][page::9][page::10].
  • 关键绩效指标对比表:


| 指标 | 中证1000基准 | 中证1000TFE | 沪深300基准 | 沪深300TFE | 中证500基准 | 中证500TFE |
|------------|-------------|-------------|------------|------------|------------|------------|
| 年化收益率 | 13.59% | 30.51% | 2.52% | 19.9% | 7.54% | 23.86% |
| 年化波动率 | 21.73% | 21.65% | 18.77% | 19.15% | 19.57% | 19.60% |
| 夏普比率 | 0.5653 | 1.349 | 0.0643 | 0.971 | 0.3182 | 1.1508 |
| 最大回撤 | -30.45% | -27.53% | -24.11% | -22.55% | -28.19% | -23.88% |
| 超额净值收益率 | 46.07% | 150.52% | 26.16% | 131.88% | 23.42% | 113.74% |
| 超额净值最大回撤| -4.72% | -3.18% | -15.66% | -10.11% | -7.69% | -4.47% |
  • 添加TFE因子后,策略回撤减少,收益增长超过100%(如中证1000指增),策略效能大幅提升,且换手率普遍降低,说明因子稳定性与运行成本改善 [page::8][page::9][page::10].
  • 损失函数测试显示,MSELoss、-IC及MSELoss结合IC调整的三种损失函数对模型结果影响不大,验证了模型鲁棒性 [page::2][page::11].
  • 风险提示包括模型超参数调优风险、基于历史数据的模型失效风险及未来数据分布变化风险,提示投资者理性使用 [page::0][page::11].


深度阅读

金融研究报告详尽分析报告



1. 元数据与概览


  • 报告标题:《机器学习与因子(三):基于 Transformer 因子挖掘的指增策略》

- 作者:陈奥林、陆达,Allin君行团队
  • 发布机构:浙商证券研究所

- 发布日期:2023年12月1日
  • 研究主题:利用机器学习中的Transformer模型对股票日频时序价量数据进行因子挖掘,进一步优化指数增强策略(指增策略),提升超额收益并控制风险。


核心论点与信息:
报告主张Transformer模型经过架构及数据处理优化后,能有效提取股票时序价量特征,生成新的因子(TFE),该因子具备较强的预测能力(样本外20日IC 16.39%,IR 1.68),其与传统因子相关性较低,能为投资组合带来差异化Alpha收益。在指增策略中加入该因子显著提升策略的年化超额收益,降低最大超额回撤和换手率,从而提升策略整体表现,显示其重要的实际应用价值及潜力[page::0,1,6,7,11]。

---

2. 逐节深度解读



2.1 摘要部分


  • 报告开篇指明,利用Transformer架构对股票的日频时序价量数据进行因子挖掘,形成的因子样本外表现优异(IC 16.39%,IR 1.68)。

- 该因子与传统因子相关性较低,仅与两个因子的相关性超过0.3,最大相关系数为0.44,说明它带来新的Alpha信号。
  • 在指数增强策略中加入该因子,显著提升不同宽基指数(如中证1000)的超额收益和风险指标,体现因子的边际贡献和实际应用价值[page::0]。


2.2 引言与背景


  • 前期报告(机器学习与因子(二))中尝试用Transformer对月频因子进行加权,但性能不佳。原因是Transformer参数量大,样本量(月频因子样本较少)不足,导致过拟合或优势难以发挥。

- 本文改变思路,从加权转为因子挖掘,改用日频交易价量作为输入,显著增加训练样本规模,提高模型应用空间。
  • 数据滤除规则严格,剔除上市120天内的新股和ST股票,确保数据质量。

- 通过数据调尺度(价格除以t-T日收盘价,换手率同理)消除量纲影响,保留时间序列动态特征,并以Z-score标准化处理保证训练集、验证集、测试集统一尺度[page::1,2]。

2.3 数据及模型设计


  • 时间序列长度(T)取30,通过大量测试选定,平衡性能与计算复杂度。

- 模型架构在之前1层encoder的基础上改进,将时间编码从位置编码(Positional Encoding)改用Time2Vec时序向量拼接,增强时间信息的表达能力。
  • 多轮训练机制(60次独立训练),集成结果形成最终因子TFE,减少单轮训练随机性影响,提升模型稳定性和预测性能。

- 损失函数尝试了MSELoss、负IC和带权重的MSELoss,效果相近,说明模型对损失函数不敏感[page::2,3,4]。

2.4 Time2Vec时间编码机制


  • Time2Vec以线性和周期函数(sin)混合方式,编码时间步长,使模型更好捕捉周期性和趋势性时间特征。

- 曲线展示不同参数配置下时间向量幅度和周期变化,增强模型对时间维度的理解和区分能力[page::3]。

2.5 训练过程与随机性控制


  • 深度学习随机性主要来自参数初始化、训练数据的随机批次、优化器差异等。作者通过训练集打乱喂入和多次独立训练结果集成,有效弱化随机性影响,保证模型结果稳定可靠。

- 图5显示60轮训练损失的收敛曲线,基本在40个Epoch后收敛,表现收敛稳定,验证集损失聚集于窄范围,说明训练过程可靠[page::3,4]。

2.6 因子检验


  • 通过使用LightGBM对60个训练模型因子集成得到TFE因子,并进行中性化处理。

- 样本外(2020-2023)持有20日测算IC为16.39%,IR为1.68,指标良好。
  • 因子10分层回测(图6)显示不同分层组合收益表现显著分化,且整体呈现单调提升趋势(图7),体现因子有较好的选股能力和稳定性。

- 和已有因子相关性较低(图8),且2020年以来,TF
E与估值、资产周转等因子正相关较强,与资产收益和预期类因子负相关明显,这说明新因子带来差异化信息,能作为现有因子的有效补充[page::4,5,6]。

2.7 指数增强策略设计


  • 采用严格行业和个股偏离限制,防止“空气指增”(行业或个股权重偏离过大导致策略风险)。

- 基准策略采用浙商金工因子库,因子权重按ICIR加权。
  • 在此基础上,加入TFE因子至技术类因子,检验其边际收益及回撤表现。

- 费率设置为双边千分之四,调仓月频,成分股数量和行业偏离比例根据指数不同而调整(详见表2)[page::7]。

2.8 策略绩效评价与分析


  • 各宽基指数指增策略中,加入TFE因子后,均出现明显收益提升和最大回撤下降,中证1000指增体现最明显。

- 中证1000指增策略年化超额收益由10.25%提升至26.67%,最大超额回撤由4.72%降至3.18%,信息比率提升超过2倍。
  • 换手率整体下降,反映加入TFE因子后因子暴露更稳定,因子多样化平滑了权重变化,提升策略性价比。

- 各指数具体表现见图表9-11和表3-4分析[page::7,8,9,10]。

---

3. 图表深度解读



图1(月频因子加权算法对比,page 1)


  • 曲线显示包括Transformer、LightGBM、CatBoost等多种回测模型日净值。

- Transformer在线性加权月频因子时表现一般,不及LGBM等集成树模型,说明样本量不足制约深度模型作用。

图2和图3(Transformer模型架构,page 2)


  • 传统的Transformer采用位置编码与时序特征相加,历史设计Encoder层只有1层。

- 本文采用Time2Vec时间编码与时序特征拼接,增加了编码信息丰富度,并通过多轮训练结果加权集成得到最终因子,提升模型效果。

图4(不同参数下Time2Vec时间向量,page 3)


  • 展示不同参数设置(频率、相位)对应的时间编码波动,周期性明显,表现出模型长期与短期时间依赖的表达能力。


图5(训练轮次学习路径,page 4)


  • 链接多个训练轮的训练集和验证集损失曲线,显示大部分模型在40个epochs后趋于收敛,验证损失聚集,训练稳定且拥有相似的收敛性能。


图6和7(TFE因子分层效果,page 5)


  • 图6中,10个分层组合的收益曲线涨幅与层级递增呈明显正相关,表现良好。

- 图7显示年化收益率基本呈单调递增趋势(除第2、3组稍有平缓),说明因子具有稳定的分层选股能力。

表1及图8(TFE因子与其他因子相关性,page 6)


  • 表1列出2020-2023年与TFE因子相关性较强的传统因子,正相关因子主要为估值、资产周转等,负相关因子多为资产收益及盈利预期因子。

- 图8从整体角度展示TFE与多个因子相关系数分布,最大相关不超过0.45,确认TFE与现有因子呈低相关性。

表2-4(指增策略参数及绩效体现,page 7)


  • 表2明确各指数成分股偏离限制、仓位比例、调仓频率及交易费率,保证策略真实可执行。

- 表3显示加入TFE后,成份策略的超额净值、最大回撤和信息比率均有明显改善,尤其是中证1000和沪深300指数。
  • 表4表明换手率下降,节约交易成本,增加策略的适用性。


图9-11(不同指数指增策略对比,page 8-9)


  • 各图通过超额净值曲线与回撤面积对比,显著展现加入TFE因子后,策略收益提升更快且波动更小。

- 最大回撤显著降低,策略风险控制有效,说明TFE因子提升了策略的回撤管理能力。

表5(指增策略绩效综合指标,page 9)


  • 详细列示收益率、夏普率、年化收益波动率、超额收益率等绩效指标说明加入TFE因子使策略整体表现跨跃式提升。


表6、7(月度单边换手率数据,page 10)


  • 月度换手数据展示各月份调仓频率及波动,加入TFE因子后换手率普遍较低,有助于降低交易成本,同时表现出因子在时间上的稳定性。


---

4. 估值分析



本报告以指数增强策略绩效提升为目标,未涉及传统意义上的公司估值模型(如DCF或P/E估值),而重点关注因子挖掘及组合策略表现的提升评估,故估值分析部分没有体现具体估值模型。

---

5. 风险因素评估



报告明确识别以下风险:
  • 模型测算风险:超参数选择对深度学习模型影响显著,可能导致模型表现波动。

- 模型失效风险:机器学习模型依赖历史数据,未来数据分布和特征可能改变,导致模型失效,历史收益不代表未来表现。
  • 数据风险:未来数据结构和特征分布或与历史不同,对模型有效性构成威胁。


报告提醒读者模型及策略仅供参考,需结合专业投资判断。无明显缓解策略,提示风险客观存在[page::0,11]。

---

6. 批判性视角与细微差别


  • 报告中强调Transformer模型在月频数据上表现不理想,调整为日频数据后大幅提升效果,但因训练样本需大量时序数据,潜在的过拟合和样本外表现依然需长期跟踪验证。

- 尽管多轮训练集成降低随机性的影响,但深度学习模型仍存在“黑盒”特征,对因子解释性和宏观逻辑披露较弱,投资应用时需谨慎权衡。
  • 损失函数对表现影响不大,表明当前模型确定性不高,未来可以尝试引入更强监督信号或先验知识进一步提升模型稳定性。

- 换手率虽有所下降,但因子组合仍存在较高调仓频率,实际交易成本及流动性风险在真实场景中需额外注意。
  • 报告未详细说明因子与具体交易策略的桥接机制,如因子如何转化为权重策略,策略执行时面临实际微观结构风险和交易滑点,值得后续补充。

- 因子相关性较低说明其差异化价值,但因相关系数最大仅约0.44,投资者应权衡新增因子对现有策略的实质风险暴露影响,防止组合过度复杂或数据挖掘偏误。

总体来看,报告内容结构合理,实证检验充分,但需留意深度学习黑箱性质及数据时效性风险。

---

7. 结论性综合



本报告通过引入基于Transformer的日频时序价格和交易量数据因子挖掘技术,解决了先前月频数据样本量不足导致的模型欠佳表现问题。利用Time2Vec时间编码、多轮训练与集成策略成功构建了TF
E因子,表现出强劲的样本外预测能力(IC 16.39%,IR 1.68),且分层收益单调递增,因子与传统因子低相关,提供了显著的Alpha增量。

将TF_E因子引入传统指数增强策略,显著提升了中证1000、沪深300、和中证500指增策略的年化超额收益(中证1000提升至26.67%)、降低了最大超额回撤(中证1000从4.72%降至3.18%),同时减少换手率,提升交易效率和实际应用价值。

图表数据佐证了因子构建与集成的稳健性,分层测试和相关性分析验证了因子的有效性和差异化。不同策略均实现了收益风险比的显著提升,增强了策略的稳定性和收益性。

风险提示中强调模型对超参数敏感,历史收益非未来保证及数据变异风险,投资者应保持适当谨慎。

整体来看,本研究成功将先进的深度学习结构应用于量化因子挖掘,为多因子投资体系提供了新鲜且有效的Alpha来源,具有较强的理论价值和实际应用前景。[page::0-12]

---

参考图片


  • 封面图片:



  • 图1 月频因子加权模型对比:



  • 图2和3 Transformer模型架构:





  • 图4 Time2Vec时间编码:



  • 图5 训练过程损失曲线:



  • 图6、7 因子分层表现:





  • 图8 因子相关性:



  • 图9-11 各指数指增策略对比:








---

本次分析全面覆盖了报告的各个关键章节,详尽阐释了Transformer模型在因子生成和指数增强策略中应用的逻辑、数据支撑及策略改进效果,并结合所有主要表格与图表深度解读论点和数据,提供了专业且具洞察力的金融量化技术解构。

报告