【浙商金工】机器学习与因子(二): Transformer特征工程算法测评
创建于 更新于
摘要
本文基于Transformer算法,构建了金融时间序列特征工程模型,利用多维因子对股票次月收益进行回归预测。通过样本内外测试(包括中证1000、中证500、沪深300及全市场多支股票池),模型能稳定筛选超额回报的股票组合,最大化利用了位置编码信息和适当时间步长,避免过拟合。尽管Transformer在自然语言处理领域表现优异,但在本报告的月频样本环境下,与多种传统机器学习模型相比未显示明显优势,提示金融序列数据和样本量对Transformer模型适用性的限制。未来可通过提高数据频率和深化金融特征挖掘来优化性能 [page::0][page::8][page::9][page::12][page::19]
速读内容
- Transformer模型介绍与基本原理 [page::1][page::2][page::3][page::4][page::5]:




- Transformer通过自注意力机制(Self-Attention)和前馈神经网络实现对序列数据的编码与解码。
- 输入序列经过线性映射产生查询(Q)、键(K)、值(V)矩阵,计算注意力权重乘以值向量形成上下文表示。
- 使用位置编码加强对数据中位置信息的感知,解决序列中元素顺序问题。
- 模型包含多层编码器和解码器堆叠,可调整深度提升表达能力。
- 数据及因子构建 [page::5][page::6]:
- 使用Wind数据库2007年1月至2023年6月月频数据,包含财务报表、交易数据及宏观经济数据。
- 构建25维金融因子池,涵盖基本面、估值、盈利、成长、杠杆、投资、交易量、价格等多方面指标。
- 数据清洗处理包括缺失值删除和Z-score标准化。
- Transformer模型训练与超参数调优 [page::6][page::7][page::8][page::9][page::10]:
- 输入为时间步长T=3,特征维度25的面板数据(3×25),标签为下月绝对收益率。
- 样本划分:2007-2018年为训练集,2019-2023年为测试集。
- 采用Encoder-Only架构,调试位置编码、时间步长、Encoder层数、多头数量和Dropout等超参数。
- 三角函数位置编码显著提升模型拟合性能和样本外收益表现。
- 时间步长适中(3)最优,过长(6)容易过拟合。
- Encoder层数过多增加过拟合,最佳为1层。
- 尝试Dropout等正则化降低过拟合,但降低了收益表现,最终不采用。
- 最终模型参数量约7801个,架构简洁高效。





- 特征注意力分析 [page::10][page::11]:

- Transformer模型对成交量相关因子(zerotrade、ill)和估值因子(bm)赋予较高注意力权重,表明这些因子对预测贡献大。
- 实证测试与组合表现 [page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18]:
- 基于训练模型,分别对中证1000、中证500、沪深300及全市场股票池进行月度打分并构建多头组合,检验超额收益。
- 中证1000多头组合表现最佳,长期产生稳定超额收益,分组年化收益从5.39%至23.68%不等,信息比率最高1.2958。


- 中证500股票池表现次优,分组收益和信息比率均降低但整体单调。


- 沪深300池表现较弱,超额收益波动较大,单调性欠佳。


- 全市场多空组合表现良好,整体能产生稳健超额收益,分组收益呈清晰单调上升趋势。


- IC均值0.047,IR为0.69,69.81%的月份IC为正,显示打分稳定性和有效性。

- 模型对比与局限性 [page::19][page::0]:

- 与CatBoost、ElasticNet、LightGBM、神经网络等10种机器学习模型对比,Transformer在月频特征工程任务中并无明显优势。
- 主要原因可能包括月频样本数有限,参数模型难以充分训练,且金融时间序列特征与自然语言序列存在差异。
- 建议未来尝试更高频数据及挖掘更适合Transformer的金融因子。
- 风险提醒 [page::0][page::20]:
- 模型超参数选择显著影响结果,风险主要局限于历史数据回测表现,未来不确定性大,供参考不作保证。
深度阅读
【浙商金工】机器学习与因子(二): Transformer特征工程算法测评 详尽分析报告
---
一、元数据与概览
- 报告标题:【浙商金工】机器学习与因子(二): Transformer特征工程算法测评
- 作者:陈奥林、陆达、Allin君行
- 发布机构:浙商证券研究所
- 发布时间:2023年8月15日
- 主题:机器学习模型中Transformer算法在股票投资特征工程的应用及测评,聚焦股票因子回归和股票池收益表现
核心论点摘要:
本报告聚焦Transformer模型在股票特征工程场景的性能表现。作者将Transformer视作自然语言处理中序列任务中的有效模型,尝试借助其处理金融时间序列的能力,通过月频多维因子输入预测股票次月收益。经过因子池设定、超参数调优及多个股票池实证,结果表明Transformer能够实现有效的股票特征加总,提升选股组合的表现,但在月频样本数据容量受限条件下,性能优于大部分机器学习模型的优势并不明显,提示样本量和数据特性或制约其应用效果。[page::0,1]
---
二、逐节深度解读
2.1 Transformer算法介绍与架构分析
- 关键内容:
- Transformer作为深度学习中的序列到序列核心模型,广泛应用于自然语言处理(NLP),其底层架构高度依赖自注意力机制(Self-Attention)。
- 报告详细讲解了Transformer中编码器(Encoder)、解码器(Decoder)架构,位置编码的作用和计算方法,以及自注意力机制矩阵运算流程(Q、K、V矩阵及其计算),进一步图示流程加深理解(图1至图8)。
- Transformer的优势在于解决RNN和CNN难以捕捉长距离依赖及并行计算限制的瓶颈。
- 逻辑与假设:
- 股票时间序列类似NLP中的序列任务,将因子时间序列作为输入序列,预测下一期股票收益为输出。
- 使用编码器单元(Encoder-Only)以简化模型,适合月频数据,不涉及序列生成任务。
- 数据和模型输入:
- 输入为面板数据,形式为时间步长T乘以因子维度N(25个特征因子)。
- 标签为下一月股票收益率,采用绝对收益率而非超额收益率,假设因子已涵盖市场β信息。
- 图表解读:
- 位置编码图(图9)展示了利用sin、cos函数的连续周期波动形态编码时间信息,提升模型序列依赖的理解力。
该部分对Transformer的深度工作原理给出了详实的技术和数学框架解释,为后文在金融因子预测上的应用奠定扎实基础。[page::1,2,3,4,5]
---
2.2 数据准备及因子池构建
- 数据时间跨度:2007年1月至2023年6月,共198个月,较长时间跨度有助于验证因子稳定性。
- 因子池:精选自Wind数据库财务报表、交易数据等,涵盖规模、估值、盈利、成长、交易类因子共计25个重要维度,见表1详细定义。
- 数据预处理:剔除缺失值、统一数值标准化处理(Z-score),确保输入数据质量。
- 训练集与测试集划分:2007-2018年作为训练集,2019-2023年用于测试。
此部分确保了模型训练输入的科学性及因子行业广度,能够较全面地捕获股票多维特征信息,提升模型泛化能力。[page::5,6]
---
2.3 Transformer模型训练与超参数调优
- 关键超参数实验:
- 位置编码的有无对模型影响明显,加入位置编码能有效降低样本内损失,提高样本外投资组合的年化收益(图10、11)。
- 时间步长T取1、3、6:样本内拟合能力随步长增加提升,但样本外验证发现步长为3时表现最佳,6时出现过拟合(图12、13)。
- Encoder层数增加带来样本内损失降低,但样本外投资组合收益下降,说明深层模型带来过拟合风险,6层以上提升收益有限(图14、15)。
- Dropout等防过拟合措施虽能缓解样本内过拟合迹象,但导致样本外组合收益大幅下降,最终未纳入模型架构(图16、17)。
- 最终模型架构:
- 单层Encoder,时间步长为3,25个特征维度,包含自注意力、残差连接、归一化层、前馈层和线性输出层,总计约7,801个训练参数(图18)。
以上过程反映了模型架构设计对机器学习性能的关键影响,强调了金融数据特征及样本容量对深度模型调优的限制。[page::7,8,9,10]
---
2.4 模型输出解释与因子重要性
- 注意力权重热图(图19):
- 高频关注成交量相关因子(zerotrade、ill)和估值指标(bm),表明模型对交易活跃度和估值水平敏感度较高,显示因子间内在关系与经济直觉相符。
- 此分析体现了Transformer模型特征加权的透明度和解释能力,增强了其应用的信服力。[page::10,11]
---
2.5 多市场股票池实证结果分析
中证1000股票池
- 多头组合净值表现优越,稳健超越基准(图20)。
- 按Transformer得分分组呈现良好单调性,年化收益、超额收益和信息比率随着得分递增(图21,表3)。
- 最大回撤水平适中,收益回撤比稳定提升,体现组合风险调整后收益较好。
中证500股票池
- 多头组合整体收益稳健,略弱于中证1000,超额收益于2021年后显著(图22、23,表4)。
- 打分组合单调性保持,但幅度与稳定性低于中证1000。
沪深300股票池
- 多头组合表现仍好于基准,超额收益波动较大,稳定性较差(图24、25,表5)。
- 打分分组的年化收益、超额收益单调性一般,波动性较高。
全市场股票池
- 多空组合形成明显超额收益(图26),多头组合相对万得全A也有稳定超额(图27)。
- 分组年化收益呈显著单调上升趋势,打分有效性较强(图28)。
- IC平均0.047,IR达0.69,且69.81%月份IC为正,显示模型预测能力稳定可靠(图29,表6)。
整体来看,Transformer特征工程在不同股票池均展现了较好的选股能力和投资组合表现,尤其在中小盘股票池效果更佳,符合市场分层特征(中小盘公司信息不对称相对较强,更适合数据驱动模型挖掘信息)。[page::11-18]
---
2.6 机器学习模型对比分析
- 图30对比Transformer与10余种主流机器学习模型(如LightGBM、XGBoost、RF、神经网络等)在同等数据、同样调仓频率条件下的多头组合净值表现。
- Transformer未显著优于更简单或传统模型,表现反而略逊。
原因猜测:
- 样本规模限制:月频调仓导致训练样本量较小,不足以充分训练参数众多的Transformer模型。
2. 数据特性差异:金融数据与自然语言数据的内在关联形式不同,Transformer自注意力机制可能未能充分发挥。
此部分强调了机器学习模型选择需贴合数据结构与任务特性,单纯技术先进不等于表现优异。[page::19]
---
2.7 风险因素提示
- 超参数选择对结果有较大影响,模型表现并非绝对。
- 收益指标基于历史数据,未来不保证。
- 机器学习模型建立在历史数据测算基础上,不能直接等同预测未来,仅参考。
报告清晰提示投资者注意模型和数据固有限制,增强报告责任意识及合规性。[page::20]
---
三、图表深度解读
3.1 关键图表解析
- 图1-8:详细视觉化呈现Transformer模型输入、编码器解码器结构、自注意力机制数学运算,帮助读者形象理解复杂模型架构。
- 图9:位置编码函数波动形态演示,强调捕捉序列位置信息。
- 图10-13:超参数调节(位置编码、有无、时间步长)对样本内损失与样本外收益的显著影响,证明位置编码和时间步长1-3的重要性。
- 图14-17:Encoder层数提升带来过拟合风险,防过拟合方法反而导致收益下降,凸显模型复杂度与泛化的平衡难题。
- 图18:最终模型架构示意,直观展示结构简洁、高效。
- 图19:注意力热力图揭示模型对各因子的关注强弱,是模型解释的关键证据。
- 图20-29:涵盖多个股票池由多头净值、超额收益、分组绩效指标、IC、IR等多维度展现模型投资效果。
- 图30:多模型净值对比,实际市场应用的价值体现。
以上图表配合文本,形成了完整论证链条,从模型理论、输入设计、训练调优到实证验证与横向比较,多维度展现Transformer在股票因子工程中的应用效能。[page::2-19]
---
四、估值分析
本报告未涉及公司估值或传统估值指标分析,焦点集中于机器学习模型性能测评及其投资组合表现评估,不存在DCF、PE等传统估值方法运用。[page::0-20]
---
五、风险因素评估
报告揭示两类风险:
- 模型测算风险:超参数设定敏感,指标受限于样本期间和样本本身,未来不具确定性。
- 模型失效风险:基于历史数据训练,可能忽视未来市场结构变革或异常事件,模型表现在未来不保证。
报告强调这些风险未提供具体缓解方案,但提示参考时需保持谨慎,并配合专业投资顾问判断。[page::0,20]
---
六、批判性视角与细微差别
- 可能存在的局限:
- 样本频率(月度)导致样本量不足,限制大参数模型(Transformer)充分发挥。这是报告反复强调的,暗示对未来升频数据的期待。
- 超参数调优多在试验层面,缺少系统自动化优化流程,可能影响最优性能发现。
- 输出结果虽稳定,部分组合分组单调性波动较大(特别是沪深300池),提示场景适用性有限。
- 仅用绝对收益率训练,未充分说明市场β因子信息内含及后续风险调整分析,潜在影响预测准确性。
- 观点表达:报告论述较为客观,不回避Transformer在该金融场景中未展现压倒性优势,立场审慎且符合研究者职业态度。
整体该报告是在确保严谨技术解读同时,合理揭示模型优势及局限,未出现明显主观偏颇。[page::0-20]
---
七、结论性综合
本报告从技术原理、数据设计、模型训练及实证分析多个维度,详尽评估了Transformer算法在股票多因子特征工程中的表现。结论如下:
- Transformer作为先进的深度学习模型,具备处理序列数据的天然优势,特别是在捕捉长距离依赖和变长序列中表现突出。
- 文中通过位置编码和时间步长精调,单层Encoder架构模型取得了较好的拟合与泛化平衡,最终模型参数约7,800个。
- 注意力热图显示模型有效聚焦关键因子,尤其是成交量和估值类指标,这验证了模型解释力和经济逻辑。
- 在中证1000、中证500、沪深300及全市场多股票池实证中,Transformer算法在样本外均实现了对基准的稳定超额收益,表现最佳时信息比率达到1.3以上,IC均值正向且稳定。
- 与其他十余种主流机器学习模型比较,Transformer虽表现良好,但未显著优越,主要受限于月频样本容量及数据特性影响。
- 风险提示中明确模型表现受超参数影响大,历史数据训练无法保证未来收益。
- 报告综合角度客观呈现了Transformer在金融时序因子工程的成效与不足,指出未来需提升数据频率与匹配适合模型的金融特征方能释放更大潜力。
综上,Transformer在金融时间序列特征工程中表现出可观的应用潜力和较好的选股能力,但当前月频样本及特征结构限制了其优越性的充分发挥。该报告为量化投资机器学习方法的选型和应用提供了重要实证和理论参考,[page::0-21]
---
参考图表展示示例
- 图18: 本文使用的Transformer模型架构

- 图19:注意力热度图

- 图29:全市场股票池Transformer打分IC/IR

---
结束语
本报告不仅系统性展示了Transformer算法机制和其在股票特征工程中的实践,还通过丰富的实证与对比研究,明确归纳了机器学习模型的选用原则与风险考量,对于金融工程师与量化研究人员具有较强的指导意义和借鉴价值。
---
溯源页码:本文所有分析均根据原文报文内容整理,重要结论均附带[page::0-21]标识。