机器学习与因子(三):基于 Transformer 因子挖掘的指增策略
创建于 更新于
摘要
本报告基于Transformer模型深度提取股票日频价量时序特征,构建了集成因子TF_E,展现出样本外20日IC为16.39%、IR为1.68的优异效果。TF_E因子与传统因子相关度低,可显著提升指数增强策略表现,以中证1000指增为例,年化超额收益提升16.42%,最大超额回撤降低1.54%,同时换手率下降,策略更稳健有效,表明Transformer挖掘因子对Alpha挖掘有显著边际贡献 [pidx::0][pidx::6][pidx::8][pidx::9][pidx::12]。
速读内容
- Transformer模型调整与数据处理 [pidx::3][pidx::4]

- 由月频因子加权调整为基于日频价量数据的因子挖掘,训练样本从原有限增至623万条,显著提升模型训练基础。
- 时间编码由位置编码改为Time2Vec,与特征拼接输入,增强时间序列特征捕捉能力。
- 多层Encoder难以训练,最终选择浅层结构并通过多轮训练集成,弱化模型随机性。
- Transformer因子TFE有效性验证 [pidx::6][pidx::7]


- 2020年至2023年期间,TFE因子样本外持有20日IC达16.39%,IR为1.68,10分层净值呈单调递增,分层分明。
- 与传统的估值、技术及预期类因子相关性普遍低(最大相关性仅0.44),具备独立性和差异化Alpha特征。
- 指数增强策略中TFE边际贡献显著 [pidx::8][pidx::9][pidx::10][pidx::12]



- 以中证1000指增策略为核心案例,添加TFE因子后年化超额收益提升至26.67%,超额净值增幅达104.45%,最大超额回撤降低1.54%。
- 同时沪深300和中证500等指增策略,添加TFE均带来超额收益显著提升和回撤收敛,信息比率和策略稳健性都得到加强。
- 换手率改善及策略稳定性提升 [pidx::8][pidx::11]
- 添加TFE因子后,三大指增策略的月度平均单边换手率均下降,最典型中证1000指增策略从51.80%降至43.12%,降低了交易频率与成本。
- TF_E因子在基准成分股中暴露稳定,增加因子数量反而有助于结果平滑,减少策略波动性。
- 模型风险提示及总结 [pidx::0][pidx::13]
- 模型的超参数设定及训练细节对结果影响较大,历史表现不保证未来收益。
- Transformer因子挖掘通过样本提频、多轮训练集成,成功克服了过拟合问题,成为差异化Alpha收益来源,为实际指数增强策略提供强有力的因子支持。
深度阅读
《机器学习与因子(三):基于 Transformer 因子挖掘的指增策略》报告深度分析报告
---
一、元数据与概览
- 报告标题:机器学习与因子(三):基于 Transformer 因子挖掘的指增策略
- 作者:陈奥林(执业证书号 S1230523040002),研究助理:陆达
- 发布机构:浙商证券研究所
- 发布日期:2023年12月1日
- 主题:使用Transformer模型对股票时序价量数据进行因子挖掘,并基于挖掘出的因子(TFE因子)构建指数增强(指增)策略。
- 核心论点:
- Transformer架构能够有效从股票时序价量数据中挖掘Alpha因子(TF因子),该因子样本外20日IC为16.39%,IR为1.68。
- 该因子与传统多类因子相关性低(差异化因子),可作为有效的投资策略补充。
- 在中证1000、沪深300、中证500等主要宽基指数指增策略中,加入TFE因子后,策略年化超额收益和信息比率显著提升,最大回撤显著缩减,且换手率有所降低,提升策略整体的风险收益特征。
- 风险提示:收益指标基于历史数据和特定超参数设定,未来表现不保证;模型存在过拟合和失效风险;可能受未来数据分布变化影响。[pidx::0] [pidx::13]
---
二、逐节深度解读
1. 引言
- 过去二期报告(机器学习与因子(二))尝试用Transformer对月频因子进行加权,但未展现出优势,主要受限于样本量不足以及模型参数过多导致过拟合。
- 本报告转变思路,由“因子加权”转为“因子挖掘”,并以日频价量数据代替月频因子数据,显著增加训练样本量以支持复杂模型训练。
- 图1展示各机器学习模型对月频因子加权的对比,LGBM表现最佳,Transformer表现一般,佐证了样本量与模型复杂度匹配的重要性。[pidx::3]
2. 数据与模型设计
2.1 数据
- 选用全A股,剔除上市不足120交易日和ST股票(取消ST 30日后重新纳入)。
- 训练集时间:2007.01.01-2018.12.31;验证集:2019全年;测试集:2020.01.01-2023.11.20。
- 输入特征为日频开盘价、最高价、最低价、收盘价、VWAP(成交量加权均价)和换手率。为消除不同股票价格单位差异,采用相对价格的归一化处理,所有价格序列除以t-T日的收盘价,换手率除以t-T日换手率,时间步长T取30。
- 进一步采用Z-score标准化,训练、验证、测试共用训练集均值和标准差参数。
- 输入数据形状:(样本数 时间步长T=30 6维特征) 充分保障了模型对动态信息的捕捉能力。[pidx::3]
2.2 模型设计
- 模型架构相比二期调优。时间编码由机器学习(二)报告的“位置编码加法”修改为“Time2Vec拼接”,更加灵活捕捉周期性时间信号。
- 训练样本量从月频翻到日频数据,达到623万条,支持更深层次的encoder堆叠。
- 采用多轮训练并集成,60个模型独立训练随机种子,最后通过LGBM对60个TF因子加权聚合形成集成TFE因子。通过集成降低单模型随机性,增强鲁棒性。
- 测试三种损失函数(MSELoss,-IC, MSELoss-λIC)效果无显著区别。
- Time2Vec时间编码采用固定参数ω=π/29,φ=-π/2,采用sin函数作为周期函数。图4清晰展示了不同参数对应的周期信号,帮助模型捕捉时间序列中的不同周期模式。
- 数据随机化机制(训练数据batch随机抽选)与多随机种子训练结合,显著减弱训练过程中的随机性和局部极小点困境(图5显示大部分模型训练40 epoch后loss均收敛)。[pidx::4] [pidx::5] [pidx::6]
3. 因子检验
3.1 因子IC与IR
- 60轮训练因子集成后,TF
3.2 因子分层检验
- 图6展现的10分层净值表现清晰区分,高分层表现优异,低分层表现较差,整体分层效果良好。
- 图7的年化收益条形图显示整体分层收益单调递增,表明因子具有良好的单调性和排序能力,仅G2和G3层单调性略平缓。
3.3 因子相关性检测
- 表1显示2020年至今TFE与多个传统因子的相关系数,最大相关度约为0.44(bop指标),整体相关度均较低(绝大多数因子相关系数低于0.3)。
- 与估值、资产周转和规模因子正相关较强;与资产收益、预期收益类因子负相关明显。
- 图8对应的相关性曲线进一步佐证因子低相关、差异化的性质。
- 因子低相关说明其风险暴露结构与现有因子明显不同,适合构建多样化Alpha组合,提高组合整体稳健性。[pidx::7]
4. 基于TFE因子的指数增强策略
- 构建指增策略覆盖中证1000、沪深300和中证500三大指数,调仓频率均为月频,采用双边千分之四的交易费率。
- 指增策略中对行业偏离和个股偏离施加严格约束,避免“空气”成分,保证风险控制合理性(表2)。
- 基准指增策略以浙商金工因子库中因子等权赋权,不同因子内部采用ICIR加权。
- 加入TFE因子后,策略边际收益明显,特别是挥发性指标(最大回撤)及信息比率均有显著改善(表3)。
- 换手率对比表4显示,因TF
4.1-4.3 各指数策略详细表现
- 中证1000指增策略(图9)
- 基准策略超额净值1.46,最大超额回撤4.72%
- 加入TFE后超额净值提升至2.51,回撤缩至3.18%,回报提升超过104%,最大回撤降低1.54个百分点,表现更加平滑稳健。
- 沪深300指增策略(图10)
- 基准策略超额净值较低1.26,最大回撤达15.66%
- 加入因子后超额净值大幅提升至2.32,回撤降至10.11%,增幅106%,回撤收敛5.55个百分点。
- 中证500指增策略(图11)
- 基准策略超额净值仅1.23,最大回撤7.39%
- 加入TFE后超额净值2.14,最大回撤4.47%,边际超额净值贡献90.32%。
- 综合表5数据,加入TFE显著提高各策略的收益率、夏普比率(如中证1000从0.57升至1.35),降低回撤,提升年化超额收益率和年化跟踪误差,增强策略质量。
- 详细月换手率数据(表6、7)显示沪深300因基数小换手率较高,加入TFE后绝大多数月份换手率均有明显下降,符合持股稳定性提升的特征。[pidx::8] [pidx::9] [pidx::10] [pidx::11]
5. 研究结论
- 由于此前因样本数量与模型复杂度不匹配,Transformer加权因子效果不佳。
- 本文以日频价量数据提频、时间编码优化、集成多轮训练等技术,成功赋能Transformer做因子挖掘,生成有效Alpha因子TFE。
- TF
- 因子与传统基本面、技术面、预期因子低相关,属于差异化Alpha,具备良好的多样化价值。
- 在中证1000、沪深300、中证500指增实证策略中,TFE有效提高策略的超额收益、夏普比率,缩减最大回撤,降低换手率,整体提升策略的性价比和稳健性。
- 三种损失函数差异有限,TFE因子有效性主要依赖数据设计与架构创新。
- 投资者应注意模型超参数对结果影响、数据分布变化带来的潜在失效风险。
---
三、图表深度解读
图表1(图1) 月频因子加权效果对比
- 图示了多种机器学习方法下月频因子加权后的策略净值走势,LGBM表现突出,Transformer表现不佳,原因系数据样本颗粒度不足,导致模型过拟合或欠拟合挫伤Transformer性能。
- 该图明确说明了样本量与模型复杂度的匹配关系,为本报告转变策略打下基础。[pidx::3]
图表2,3(图2,图3) Transformer模型架构对比
- 图2为先前报告中Transformer的因子加权架构,输入维度(batchsize T 25),采用位置编码相加。
- 图3为本文改进的因子挖掘架构,输入维度调整为(batchsize T * 6),即只包含精炼后的6个日频价量特征,时间信息与特征拼接(CAT),并多重encoder堆叠、集成多次训练结果以形成最终因子TFE。
- 改变输入特征维度、时间信息处理方式和集成多模型,提升模型表现,减少过拟合风险。[pidx::4]
图表4(图4) Time2Vec 时间编码示意
- 展示不同频率周期函数组成的时间编码,横轴为时间步长0-29,纵轴为编码数值。
- 该编码方法帮助模型捕捉不同时段、不同周期的时间变化特征,注入时间信息中的周期性模式。
- 实现上采用固定的ω和φ参数,保持与原始Time2Vec论文定义的sin函数周期性一致。[pidx::5]
图表5(图5) 多轮训练学习路径
- 展示多个训练轮次的训练(train
- 损失普遍在40 epochs后收敛,验证损失波动缩小至狭窄区间,显示模型训练稳定性良好,多随机初始化和数据增强有助于减弱随机性影响。
- 明确支撑了多模型集成的做法。[pidx::5] [pidx::6]
图表6,7(图6,图7) TF
E因子分层测试- 图6为10组分层的组合净值相对于全A等权净值表现,高分层(G10)净值涨幅最高,低分层回撤最大。
- 图7为分层年化收益条形图,整体呈现分层收益单调提升趋势,除2、3组稍有回落外,因子单调性和排序能力良好,显示因子能够有效区分股票的未来表现。
- 因子策略可支持持仓优化和排序选择。[pidx::6]
表1,图8 因子相关性分析
- 表1列出TFE因子与各传统因子(基本面、估值、技术指标等)的年度相关系数,最大相关系数仅0.44左右,说明因子提供了新的Alpha信号。
- 图8全貌呈「右高左低」趋势,绝大多数因子与TFE相关度维持在±0.3以下,体现因子的差异化特点。
- 因子非线性的和数据驱动的提取方式显著拓展了现有因子库的多样性。[pidx::7]
表2-4 各指增策略参数及绩效对比
- 表2清晰列出中证1000、沪深300、中证500指增策略的调仓频率、成份股数量、行业和个股偏离控制以及交易费率等要素。
- 表3显示加入TFE因子后策略的超额净值、最大超额回撤、信息比率均大幅提升,策略稳健性和收益性均获得显著增强。
- 表4展示TF
- 浙商证券因子库对比验证,体现TFE因子的额外边际贡献。[pidx::8]
图9-11 指增策略绩效曲线对比
- 三幅图直观呈现加入TF
- 最大回撤幅度显著减小,尤其是沪深300和中证500策略改进尤为明显。
- 叠加的回撤柱状图显示策略更好抵御市场波动,策略优化效果明显。[pidx::9] [pidx::10]
表5 指增策略全周期绩效总结
- 指增策略全周期(2020年至2023年11月)收益率、年化收益、波动率、夏普比率、回撤等均衡指标详细罗列。
- TFE因子优化后,中证1000策略年化收益从13.59%提升至30.51%,夏普比率翻倍,最大回撤下降近3个百分点,反映收益与风险兼顾的显著提升。
- 多年季度收益和超额收益对比确保结果的稳健性和一致性。
- 年化收益/回撤比明显提升,提升了策略的风险调整后回报能力。[pidx::11]
表6,7 详细月度换手率数据
- 两个表细致列示月度单边换手率数据,供实际交易执行参考。
- 结果显示换手率整体降低,尤其月度峰值月呈现明显回落,表明加入TFE因子战术稳定性增强。
- 沪深300换手率相对较高,因成分股规模较小,增加的流动性成本需要适度关注。
- 换手率降低与因子间权重平滑效应高度相关。[pidx::11]
---
四、估值分析
本报告主要聚焦因子效果和策略表现,未涉及具体公司估值,因此无相关DCF、PE或EV/EBITDA等估值模型的运用。
---
五、风险因素评估
- 模型测算风险
- 超参数设定(如网络深度、时间步长、学习率等)对最终深度学习模型表现影响显著,存在调参复杂和过拟合风险。
- 模型失效风险
- 机器学习模型基于历史数据,过度拟合或历史结构变化可能导致未来效果不佳。
- 数据风险
- 未来市场环境及数据特征可能与训练样本存在较大差异,影响模型稳定性。
- 结论
- 所有历史模式与参数调整的结果仅供参考,投资者需谨慎应用。
- 报告提示
- 该报告未提出具体风险缓解策略,仅予以风险披露,提醒投资者独立判断。[pidx::0] [pidx::13]
---
六、批判性视角与细微差别
- 报告整体逻辑清晰、数据详实,因子和策略表现优异,证明Transformer因子挖掘的新角度有效。
- 报告强调因子样本外表现,体现稳健性思考,但未提及更长周期或者极端市场(如2008年全球金融危机)下的表现,限定测试样本时间窗口相对较近。
- 损失函数测试部分只说明无显著差异,未给出更细节结果、波动性等维度,不够充分。
- 换手率虽整体下降,但沪深300某些月份换手率仍较高,短期流动性风险或实施成本仍需关注。
- 风险提示相对笼统,缺少具体应对措施,投资者应结合自身实际谨慎使用。
- 模型调整过程对训练的超参数优化未披露细节,模型训练资源消耗和可扩展性未充分论述。
- 表1中部分因子负相关性波动较大(如roaqfa),可能反映因子性质复杂,需后续进一步剖析。[pidx::7]
---
七、结论性综合
本报告基于Transformer架构,创新地结合日频股价和量能数据,并引入Time2Vec时间编码及多模型集成,成功挖掘出效率优良的Alpha因子TFE。该因子在样本外测试期间保持了16.39%的20日IC,IR达到1.68,且因子同传统因子低相关,具备显著的差异化Alpha收益潜力。
报告精细检验了因子分层的有效性和单调性,且通过对中证1000、沪深300和中证500三大宽基指数指增策略做实证检验,验证了TFE因子对超额收益、风险控制及换手率优化的边际贡献。加入TFE后各策略收益翻倍,回撤显著收缩,夏普比率大幅提升,整体提升了策略的风险调整后表现及实际交易持续性。
图表和细节数据充分支撑了TFE因子在实际组合管理中的应用价值。风险方面,报告提醒了深度学习模型和数据本身固有的预测局限,投资者需谨慎筛选和应用。报告对Transformer因子挖掘在量化投资领域的应用提供了技术和实证的双重支撑,展示了机器学习模型在传统因子研究之外的巨大潜力和拓展方向,具有较高的参考和推广价值。
---
总体评级:报告以严谨的机器学习方法论结合丰富的实证数据,充分证明了基于Transformer的日频因子挖掘策略的有效性和潜力,值得关注和进一步验证。其策略表现显著优于传统基线,具有积极的应用前景与研究促进作用。[pidx::0] [pidx::3-13]
---
图表示例引用
- 图1 月频因子加权算法对比,LGBM领先,Transformer未明显优越

- 图6 TF

- 图9 添加TF_E因子前后中证1000指增策略收益对比

(其余图表分析请对应以上深度解析内容参考)