机器学习与因子(三):基于 Transformer 因子挖掘的指增策略
创建于 更新于
摘要
本报告基于 Transformer 架构利用股票日频价量数据进行因子挖掘,构建出TF_E差异化Alpha因子。TF_E因子样本外20日IC为16.39%,IR为1.68,相关性低且有效性强。将该因子加入中证1000、沪深300及中证500指增策略中,均显著提升策略绩效,年化超额收益提升逾16%,最大超额回撤显著缩减,换手率下降,策略性价比明显优化 [page::0][page::3][page::6][page::9][page::12]
速读内容
Transformer因子挖掘方法优化与数据处理 [page::3][page::4]
- 采集全A股股票日频开盘、最高、最低、收盘价、VWAP及换手率,时间窗口长度T取30。
- 时间信息编码由原来的位置编码改为Time2Vec合并,保留周期性时间特征。
- 采用多层自注意力编码器结构,弱化模型随机性,通过随机数据批次及多轮训练集成减少过拟合效应。
- 训练样本规模提升至623万条,大幅增强Transformer模型训练效果。
TFE因子有效性检验 [page::6][page::7]


- 多轮训练集成生成TFE因子,2020年起样本外20交易日IC为16.39%,IR1.68,因子呈现良好单调分层效果。
- TFE因子与常规估值、资产周转、规模等因子相关性低,区别于传统基本面、技术面、预期类因子,具明显差异化Alpha来源。
- 因子稳定性和有效性强,适合作为现有因子库重要补充。
指数增强策略设计及核心参数介绍 [page::7]
| 指数名称 | 最大行业偏离 | 最大个股偏离 | 成分内选股比例 | 策略股票数量 | 调仓频率 | 双边费率 |
|------------------|--------------|--------------|----------------|--------------|----------|-------------|
| 中证1000指增 | 0.50% | 0.20% | 100% | 400 | 月频 | 千4 |
| 沪深300指增 | 2.00% | 1.50% | 100% | 50 | 月频 | 千4 |
| 中证500指增 | 1.00% | 0.50% | 100% | 200 | 月频 | 千4 |
- 采用行业及个股偏离严格约束避免空气指增,费用考虑双边4bp。
- 基准策略使用浙商金工因子库,基类因子权重采用ICIR加权,TFE因子纳入技术类因子进一步增强策略。
TFE因子加入后的策略性能显著改善 [page::8][page::9][page::10][page::11]

- 中证1000指增策略年化超额收益提升至26.67%,信息比率升至3.56,最大超额回撤缩至3.18%,换手率从51.8%降至43.1%。
- 沪深300指增策略年化超额收益升至24.17%,最大超额回撤降至10.11%。
- 中证500指增策略年化超额收益提升至21.59%,最大超额回撤降至4.47%。
- TFE因子边际贡献超额净值提升均超过90%,显著优化了收益与风险的平衡。
策略详细绩效指标及换手率对比 [page::11][page::12]
| 指数及策略 | 收益率 | 年化收益 | 年化波动率 | 夏普比率 | 超额净值收益率 | 最大回撤 | 超额净值最大回撤 |
|------------------|----------|----------|------------|----------|----------------|----------|------------------|
| 中证1000基准 | 64.08% | 13.59% | 21.73% | 0.5653 | 46.07% | -30.45% | -4.72% |
| 中证1000TFE | 181.40% | 30.51% | 21.65% | 1.349 | 150.52% | -27.53% | -3.18% |
| 沪深300基准 | 10.14% | 2.52% | 18.77% | 0.0643 | 26.16% | -24.11% | -15.66% |
| 沪深300TFE | 102.43% | 19.9% | 19.15% | 0.971 | 131.88% | -22.55% | -10.11% |
| 中证500基准 | 32.61% | 7.54% | 19.57% | 0.3182 | 23.42% | -28.19% | -7.69% |
| 中证500TFE | 129.64% | 23.86% | 19.60% | 1.1508 | 113.74% | -23.88% | -4.47% |
- 各策略均表明TF
- 换手率统计显示添加TF_E因子后,策略整体交易频率有所降低,有助于成本控制。
风险提示 [page::0][page::13]
- 超参数设置及深度学习模型复杂性带来模型测算风险。
- 机器学习模型基于历史数据,未来市场环境变化可能引发模型失效。
- 数据分布及特征变动风险可能导致策略预测性能下降。
深度阅读
《机器学习与因子(三):基于 Transformer 因子挖掘的指增策略》报告全面详解
---
一、元数据与报告概览
- 报告标题:机器学习与因子(三):基于 Transformer 因子挖掘的指增策略
- 发布机构:浙商证券研究所
- 报告时间:2023年12月01日
- 分析师:陈奥林,研究助理陆达
- 主题:算法金融领域,重点围绕使用Transformer模型从股票日频价量时序数据中挖掘因子,并通过构建指增(指数增强)策略实现Alpha收益提升的研究
- 核心观点摘要:
- 本文通过变革模型架构和输入数据,由原先的因子加权拓展为因子挖掘,使用日频价量数据增强样本量,结合Time2Vec时间编码、多轮训练及集成学习,成功挖掘出新因子TFE。
- TFE因子样本外测试IC指标为16.39%,IR为1.68,表现稳定且与现有因子相关性较低,提供差异化Alpha收益。
- 添加TFE因子后,指增策略业绩有显著提升,中证1000指增年化超额收益提升16.42%,同时最大超额回撤下降1.54%。
- 报告也提出了模型测算风险、模型失效风险及数据风险的提示,强调收益指标不代表未来表现。[page::0,3,6,8,12,13]
---
二、逐章节详细解析
1. 引言
- 关键论点:
- 之前的《机器学习与因子(二)》报告使用Transformer对月频因子加权,效果未达预期,原因主要是Transformer模型需大样本量支持,而月频因子数据样本相对稀少,导致模型过拟合或效果受限。
- 因此,本报告通过将模型功能转变为因子挖掘,且输入数据改为包含每日交易数据的日频价量信息,从而大幅增加训练样本量和数据维度。
- 支撑依据:
- 图1显示月频因子加权算法中,LightGBM表现优于Transformer及其他模型,Transformer表现一般,主要由于数据和模型复杂度的不匹配。
- 报告指出调整后策略具有更强的训练数据基础,如全A股日频数据,剔除短期上市和ST股票,保证数据质量。
- 结论:
- 通过提升频率和调整模型输入方式,有望激发Transformer的潜力,解决之前模型层数受限和过拟合问题。[page::3]
2. 数据与模型
2.1 数据
- 数据范围:
- 全A股池股票,2007年1月1日至2018年12月31日作为训练集,2019年为验证集,2020年初至2023年11月20日为测试集。
- 数据处理:
- 使用股票日频开盘、最高、最低、收盘价格、成交量加权价格(VWAP)及换手率。
- 对价格数据进行标准化处理:每只股票的时序数据除以$t-T$日收盘价,换手率同理,$T$为时间步长,选取30天。
- 使用z-score标准化且标准化参数取自训练集固定,不随验证和测试集调整,以保持稳定性。
- 数据维度:
- 模型输入维度为 $(\text{样本量} \times T \times 6)$。
- 重点解读:
- 由月频因子转为日频交叉系列,极大提高训练样本量(达到623万条),利于深度学习复杂模型的训练。
- 假设:
- 选择$T=30$在性能和计算资源间取得平衡;且通过数据预处理确保模型对不同行业、价格水平股票的适用性。[page::3]
2.2 模型设计
2.2.1 模型架构
- 模型架构:
- Transformer encoder的深度限制由之前浅层1层提升,借助大样本避免过拟合。
- 时间编码方式从传统位置编码改为Time2Vec,将时间信息拼接到输入特征,保留更多时间序列信息。
- 采用多轮训练和模型集成,随机初始化不同的模型训练结果,通过加权集成形成最终TFE因子。
- 激活函数、层次结构:
- Transformer包括self-attention层、layer normalization和前馈全连接(feed forward)层,输出由线性层映射调整。
- 损失函数试验:
- 测试MSELoss、负IC(信息系数)损失及二者加权组合,结果差异不显著,模型稳健性较好。
- Time2Vec时间编码:
- 时间向量$\mathbf{t}2\mathbf{v}(\tau)$定义为线性部分加上一组周期函数(如sin函数),通过可学习参数调整频率和相位。
- 调整参数$\omega$, $\varphi$后,可获得不同周期和相位的时间编码,有助模型捕抓周期性行为变化。
- 图2、3展示模型结构变化,图4展示时间向量周期变化形态。[page::4,5]
2.2.2 弱化模型随机性
- 论述:
- 非确定性的随机初始权重、训练样本随机批次选择和优化器特性,会导致结果波动。
- 方法:
- 打乱训练集顺序进行随机采样,增加训练鲁棒性。
- 通过60个随机种子独立训练60个模型,最终集成这些模型输出,降低随机性带来的噪声。
- 图5显示多轮训练的损失收敛路径,验证集损失均收敛于相近范围,表明模型稳定性提升。[page::5,6]
3. 因子检验
3.1 因子IC与IR
- TFE因子由60个独立训练因子通过LGBM加权集成后形成,经中性化处理,样本外(2020-2023年)20日持有期IC为16.39%,IR为1.68。
- 该IC水平说明因子具有较强的预测效力,IR表明信号稳定且统计意义显著。[page::6]
3.2 因子分层测试
- 图6描绘TFE因子将股票分成10组后的股票组合净值表现(相较于全市场等权),最高组明显跑赢最低组,表现为良好分层特征,表明因子具备单调预测性。
- 图7显示各分层的年化收益率,除第2、3分组收益增速趋平之外,整体收益曲线呈单调递增,强化了因子有效性及可交易性。[page::6]
3.3 因子相关性检测
- 表1列示2020年以来TFE因子与其他因子的相关性,最高相关系数仅为0.44,且仅与少数两个因子相关度超过0.3,表明独特信息含量。
- 负相关因子以资产收益和共识预期类基本面因子为主,正相关因子聚焦估值、资产周转等。
- 图8以可视化方式显示TFE因子与其他传统因子的相关性分布,进一步印证TFE因子作为差异化Alpha来源的独立性。
- 通过这样分析,报告强调TFE是对现有因子组合的重要补充。[page::7]
4. 基于TFE因子的指数增强策略
4.1 策略构建要素(表2)
- 指增策略遵循月频调仓,具体调仓费率为双边0.4‰。
- 行业及个股偏离控制严格,例如中证1000指增最大行业偏离0.5%,最大个股偏离0.2%,以防止策略过度偏离基准指数。
- 策略内选股比例均为100%,股票数量不同(中证1000为400股,沪深300为50股,中证500为200股)。
- 因子加权方面,基准策略采用浙商金工因子库中大类因子等权,类内部使用ICIR加权,基准策略与加入TFE因子后加权方式一致,确保对比公平。[page::7,8]
4.2 策略绩效对比(表3,表5)
- 主要发现:
- 添加TFE因子后,各宽基指增策略均出现显著收益和风险指标的改善。
- 中证1000指增策略年化超额收益由10.25%提升至26.67%,信息比率由1.45提升至3.56,最大超额回撤降至3.18%(较基准4.72%下降1.54%)。
- 沪深300与中证500指增策略同样表现出年化超额收益率翻倍的信息量提升,超额回撤明显收敛,信息比率均大幅提高。
- 表5补充了年化波动率、夏普比率及历年收益率详细拆解,验证策略在周期性波动中的稳健表现。
- 撇开收益指标不谈,策略的年化收益/回撤比指标大幅改善,体现了增强策略风险调整后的超额回报能力。[page::8,12]
4.3 换手率表现(表4,6,7)
- 添加TF
- 换手率下降的原因包括:
- 因为TFE因子暴露相对稳定,导致持仓调整频率下降。
- 多因子加权中单因子权重降低,平滑了个股权重波动,减少交易频率。
- 详细月度数据反映,绝大多数月份换手率降低,换手率控制有助于降低交易成本,提升实际净收益。[page::8,11,12]
4.4 具体指增策略绩效路径(图9-11)
- 中证1000指增(图9):
- 添加TFE后,超额净值进一步攀升至2.51,且最大超额净值回撤由4.72%降低至3.18%。
- 超额净值提升104.45%,最大回撤降低1.54个百分点。
- 曲线较基准更为平滑,回撤风险明显下降。
- 沪深300指增(图10):
- 基准策略表现差,超额净值仅为1.26,最大超额回撤达15.66%。
- 添加TFE后,超额净值提升至2.32,最大回撤降至10.11%,边际贡献超额净值提高105.72%,回撤改善5.55%。
- 中证500指增(图11):
- 基准超额净值仅1.23,最大回撤7.39%。
- 添加TFE后,超额净值升至2.14,最大回撤降至4.47%,超额净值涨幅90.32%,最大回撤减少3.22%。
- 三个指数的指增策略均因TFE因子增强而显著盈利能力提升和风险收敛。[page::9,10,12]
---
三、图表深度解读
- 图1(第3页):
- 展示了多种机器学习算法在“月频因子加权”场景下的净值增长表现。
- LightGBM以较大优势领先,Transformer曲线平缓落后。
- 从视觉趋势看,Transformer难以从少样本中学习有效加权权重。
- 图2和图3(第4页):
- 比较原始Transformer加权架构(图2)和调整后基于日频数据的因子挖掘架构(图3)。
- 图3显示使用Time2Vec时间编码并集成多次训练结果形成最终因子TFE。
- 图4(第5页):
- 可视化Time2Vec时间编码的周期变化,不同参数组合描绘不同频率和相位的波形。
- 证明时间编码能够在时间维度中捕获复杂的周期特征。
- 图5(第5页):
- 60轮训练的损失曲线,训练和验证损失均稳定收敛于约1.0,显示模型训练过程稳定,且集成有助抵消单模型随机性。
- 图6和图7(第6页):
- 因子分层测试显示,TFE因子在十个分层内收益表现递增,最高分层年化收益明显优于最低分层。
- 表明因子单调性良好,且持有期价值增加,保证因子可交易性。
- 图8(第7页):
- TFE因子与其他行业因子相关性图,相关值多低于0.3,显示因子具备差异化Alpha。
- 图9-11(第9-10页):
- 各指增策略添加TFE前后超额收益及回撤曲线对比。
- TFE策略曲线更为陡峭上升且回撤幅度减小,直观体现TFE因子贡献。
- 各表格(第7-12页):数据详尽列示策略参数、因子相关系数、策略绩效指标及换手率等,为因子与策略效果提供了丰富量化依据。[page::3-12]
---
四、估值分析
本报告为金融工程和策略研究报告,不涉及传统公司估值(DCF、市盈等)分析,核心在于因子研究与策略的量化表现。因而无具体估值方法分析部分。
但报告提供了基于IC及IR加权的因子整合方式,以及结合基准因子库和新因子进行因子加权,这可视为一种基于统计学习的“因子组合估值”方法,追求高IC带来的稳定Alpha回报。
---
五、风险因素评估
- 模型测算风险:
- 深度学习模型超参数设定影响显著,不同参数组合可能导致性能波动。
- 收益指标建立在有限的时间区间及样本数据上,未来表现无法保证。
- 模型失效风险:
- 机器学习依赖历史数据,无法保证在结构性市场环境变化或极端事件中有效。
- 数据风险:
- 未来数据的分布特征可能发生改变,影响模型的泛化能力及投资适用性。
- 缓解措施:
- 使用集成学习、滚动验证及多种损失函数测试减少模型偏差。
- 对因子进行中性化处理和严格的行业及个股偏离限制,防控策略集中风险。[page::0,13]
---
六、批判性视角与细微差别
- 报告明确了Transformer模型的优势需要大规模样本支撑,切实避免了模型过度复杂性导致的过拟合,体现较强的实践导向。
- 由于因子挖掘使用的是价量交易数据和相对的时间标准化,可能对高频或非线性噪声敏感,解释其“稳定性”还需在更长时间尺度和不同市场检验。
- 损失函数变化未显著影响结果,显示模型结构对结果影响更大,未来可以探索更多设计以提升模型解释力与鲁棒性。
- 报告因数据对齐原因剔除了ST和新股,可能对整体市场覆盖有所限制。
- 报告中大部分业绩数据集中在后疫情市场,2020年以来市场特定波动可能影响结果,需要注意未来不同市场环境适用性。
- 换手率虽有所降低,但仍处于较高水平,实际应用中需要综合考虑交易成本及流动性影响。
- 报告未涉及策略运行的操作复杂度、模型的实时运算成本和维护成本,投资者需注意实施难度。
- 相关系数虽低,但最大相关系数仍达到0.44,说明TFE因子与部分传统因子存在一定信息重叠,应适度避免因子重复投资风险。[page::3,7,8,13]
---
七、结论性综合
本报告通过创新性的Transformer因子挖掘方法,充分利用日频交易数据和Time2Vec时间编码,有效提升了因子信号的稳定性和识别能力。多轮独立训练和模型集成策略,有效弱化了深度学习固有的随机性问题,显著提升了因子IC和IR指标,为Alpha收益提供差异化来源。
关键量化表现包括:
- 样本外20日IC达16.39%,IR达1.68,因子分层显示良好单调性,展现稳定性。
- 与传统估值、盈利等基本面因子相关性低(最大0.44),体现TFE因子补充了传统因子库,具备高独立性。
- 将TF
- 策略换手率较基准显著下降,降低了交易成本,提升净收益。
- 报告的详实表格和曲线直观呈现了投资组合净值成长和极值回撤动态,为因子有效性和策略优越性提供坚实证据。
- 报告同时提示模型和数据风险,谨慎提示投资者因子和策略未来表现不确定性。
综上,本报告展现了Transformer深度学习模型在金融因子挖掘和指数增强策略中的潜力,提供了理论与实证相结合的前沿研究,为Alpha策略构建者提供了新的工具和方向,具备较强应用价值和创新意义。[page::0-13]
---
附录
- 主要图表索引:
- 图1 月频因子加权算法对比
- 图6-8 因子测试及相关性分析
- 图9-11 指增策略超额净值及回撤曲线对比
- 表1-7 因子相关性与策略绩效及换手数据详表
- 风险提示:超参数敏感性,市场非稳态,历史数据局限
- 参考文献:经典Transformer论文[14页]及相关机器学习文献。
---
总结:本报告系统阐述了Transformer因子挖掘算法的理论设计、数据处理、训练机制、因子效能测试以及策略实际绩效验证,证明在大规模日频数据和现代深度学习技术结合下,传统金融多因子模型可获得显著增强,推动量化投资走向更高智能化阶段。
---
(全文引用均已标明具体页码)