Quantformer: from attention to profit with a quantitative transformer trading strategy
创建于 更新于
摘要
本报告提出了Quantformer,一种基于Transformer的改进型神经网络架构,用于构建投资因子。通过替换词嵌入层为线性层,直接处理数值型时间序列数据,并简化解码器结构,Quantformer能够有效捕获长期依赖关系,精准预测股票未来一段时间的收益。利用2010年至2023年中国A股4601只股票超500万条滚动数据进行训练和回测,Quantformer因子在多频率(月、周、日)数据上的交易策略均展现出显著优于传统100个价格-成交量因子的表现,收益、夏普率与Alpha均处于领先水平,且具备良好的风险控制能力。研究验证了结合市场情绪信息的Transformer模型在量化交易中的潜力 [pidx::0][pidx::10][pidx::14][pidx::15][pidx::16].
速读内容
- 研究背景及挑战:传统量化交易难以充分捕捉多变量、长时序的市场信息,特别是量化因子基于数值类型数据时存在转换和建模困难,Transformer原生设计为序列到序列任务,不适合直接预测未来收益率 [pidx::0][pidx::2][pidx::3].
- Quantformer模型创新点:
- 将Transformer中词嵌入层替换为线性变换层,适应数值时间序列输入。
- 移除解码器掩码和自动回归机制,输出未来收益不同分位的概率分布。
- 组合多头自注意力机制和标准归一化,提升长期依赖捕获效果。

[pidx::6][pidx::8][pidx::9]
- 数据与实验设计:
- 使用2010年至2023年中国上海和深圳交易所的4601只股票,超500万条包含收益率和换手率的滚动时间序列数据。
- 数据频率涵盖月、周、日三档,分别训练不同输出维度(3和5分类分位)。
- 训练使用Adam优化器,6层编码器,16多头注意力,特征维度16,50轮迭代。
[pidx::10][pidx::11][pidx::13]
- 交易策略及评估指标:
- 基于模型输出排名前1/q的股票构建持仓,月初调仓,等权分配资金,持有至下一调仓日。
- 评估指标包括年化收益率(AR)、年化超额收益率(AER)、夏普比率(SR)、Alpha值、换手率(TR)、胜率(WR)以及99%VaR。
[pidx::11][pidx::12][pidx::13]
- 关键实验结果总结:
- 月度(Month-1)策略年化收益达17.35%,年化超额收益19.43%,夏普比率0.915,Alpha为0.162,远超沪深300基准1.77%的年化收益和-0.015的夏普比率。
- 周度及日度策略表现中等,体现较短周期因子噪声更大,月度因子更稳健。
- 不同训练规模(前20%、10%、5%、1%排名股票)均表现出较强选股能力,1%最优年化收益达24.71%,但波动也相应较高。
- 相比传统100个价格-成交量因子,Quantformer因子综合表现排名第一,显著提升收益和风险调整表现,最大回撤及VaR处于较优水平。

[pidx::14][pidx::15][pidx::16][pidx::25]
- 量化因子构建核心思路及方法:
- 输入为每只股票20日(或周期)累计收益率和累计换手率的2维矩阵,经Z-score标准化。
- 多头自注意力模型计算各头Query、Key、Value,通过点积注意力获得加权信息融合。
- 输出为选择的q个分位(如3或5个)对应的概率向量,采用softmax激活。
- 训练目标为最小化预测分类和真实分类(收益分位)的均方误差,优化成交行为信号准确度。
[pidx::6][pidx::8][pidx::9][pidx::10]
- 模型实际应用及未来方向:
- 结合市场情绪等辅助信息可进一步提升模型表现。
- 需改进自注意力机制更好表达时间距离和模式交互。
- 可以引入更先进的生成式预训练模型(如GPT-4、Claude3)做精调,拓展量化交易策略设计。
[pidx::16]
深度阅读
金融研究报告详尽分析报告
---
1. 元数据与报告概览
报告标题: Quantformer: from attention to profit with a quantitative transformer trading strategy
作者及机构: Zhaofeng Zhang, Banghao Chen, Shengxin Zhu, Nicolas Langrené,主要来自广东省数据科学交叉研究与应用重点实验室及北京师范大学等。
发布日期: 近期,论文中数据最晚涵盖至2023年5月,表明报告近期完成。
研究主题: 本报告聚焦于基于Transformer模型的定量交易策略——Quantformer,通过引入改进的Transformer架构,结合情绪分析和股票价格数据,开发用于预测股票趋势的投资因子。目标是提升量化交易中因子选股的准确率及策略的盈利能力。
核心论点摘要:
- 在传统量化交易中十分难以捕获股票市场中长期信息及关键信号。
- Quantformer模型基于Transformer架构,改进处理数值输入数据能力,并通过迁移学习融入市场情绪分析。
- 使用超过4600只中国股票的500万条滚动数据进行训练和测试,模型在股票趋势预测方面优于100个传统因子策略。
- Quantformer因子显著提升了交易信号的准确性,在实际金融市场环境中展现了赢利潜力。
- 论文中包含完整实现细节与开源代码链接:https://github.com/QuantFormer[pidx::0]
---
2. 报告逐章深度解读
2.1 引言与背景(引言章节)
报告首先明确了股票交易的目标——最大化投资收益,但市场复杂波动的多因素特征造成预测困难。传统模型如Markowitz组合理论和Capital Asset Pricing Model (CAPM)主要依赖静态基本面分析,难以涵盖市场的动态信息。因此,基于因子的策略成为主流,这些因子帮助对股票进行排序、分组、构建投资组合。报告指出因子交易策略的两大主流实施方式:
- 计算股票因子值,基于排名构建持仓池并持有至下一调仓窗口。
- 使用固定股票池,因子驱动多空信号,动态调节仓位。
该部分的图1清晰呈现了两种因子交易架构的操作流程,强调了因子计算和信号生成在量化策略中的核心地位[pidx::1]。
2.2 机器学习在量化交易中的应用及挑战(2节)
近年来,机器学习特别是深度学习被广泛应用于股票预测,但因市场非平稳和噪声多变,使得传统假设(如随机游走)面对问题。NLP中的情绪分析启发了利用文本构建市场情绪因子的尝试,但金融时间序列数据多为数值和类别变量,无法直接使用传统的词嵌入技术,模型需适应数值输入。此外,Transformer原生设计用于序列到序列预测(如机器翻译),但股票预测任务目标为对未来收益的预测,与序列生成有所差异。Quantformer针对这两个技术漏洞,通过利用线性层替代词嵌入,及简化解码器部分,改进适应数值时间序列预测任务。未来章节将详细介绍模型架构及训练实验设计[pidx::2]。
2.3 详细技术背景与相关工作(2.1-2.3节)
- 市场情绪与股价关系: 投资者情绪(包括情绪指标、换手率等)与股市波动有相关性,尤其是在高压力时期情绪显著影响市场表现。情绪因子作为新的投资因子也获得了认可。此背景为Quantformer结合情绪信息提供理论基石。
- 机器学习模型: 报告详细介绍了SVM、LSTM、GRU等模型在金融预测中的应用案例与优势限制,指出深度学习尤其是循环神经网络在抓取时间依赖性方面表现优异,但仍面临过拟合及反应延迟等问题。
- Transformer模型及其量化创新应用: Transformer结构因自注意力机制能捕获长距离依赖,得到NLP及金融领域关注。报告提及已有研究利用Transformer及其变种(Informer、ConvLSTM结合Transformer等)提升市场价格走势预测能力,并指出传统Transformer的局限性:室内缺乏上下文距离编码,点对点关注忽略序列整体模式,导致模型对噪声敏感[pidx::3–6]。
3. Methodology(方法论章节)
- 输入数据结构及问题定义:
输入为股票集合$S^t$中每只股票过去20个时间步(如日、周、月)累计收益率与换手率组成的二维数值矩阵,模型目标为预测下一个时间点股票的收益分位值。
- 输出标签设计:
预测标签为划分为$q$等分(通常为5)的收益分布,模型输出为分类任务,指示股票落入分组中的概率。例如$df=3$时,表示预测落入“低、中、高”三个收益区间的概率分布,便于转化为买卖信号。
- 数据预处理:
对输入数值使用标准化(Z-score)降低异常点影响,提升模型学习稳定性。
- Quantformer架构设计:
核心改进点在于用线性层替代NLP中词嵌入处理,能够直接处理数值输入;简化了Transformer的解码器,去掉了基于序列产生的mask机制,适应股票未来单点收益预测需求。
- 自注意力机制核心数学表达:
定义多头注意力机制的Query、Key、Value线性变换和Attention计算,体现模型对股票时序数据的长程相关建模。
- 输出层及损失函数:
最终输出通过softmax转化为概率分布,损失函数采用均方误差(MSE),反映预测分类概率与真实标签分布的偏差,指导训练优化[pidx::6–10]。
4. 实验设计与数据
- 数据来源与范围:
来自上海、深圳两大证券交易所,共4601支股票,时间跨度2010-2023,训练阶段为2010至2019,测试开始于2020。
- 时间频率划分:
实验使用包括月、周、日三种数据频率设定,验证模型在不同数据粒度下的泛化能力。
- 实验设计细节:
不同输出维度($df=3$与5)和是否剔除零输出样本(zero-output)设计了多套子实验,以测试因子效果。
- 实现参数:
采用PyTorch框架,隐藏特征维度$df=16$,16个多头注意力头,6层编码器,Adam优化器,50次迭代,初始学习率0.001,批次大小64,训练硬件包括RTX 2080和A100 GPUs。
- 交易策略:
基于模型输出排序构建持仓池,策略遵循买入排名靠前的$q\%$股票,持有至下一调仓日,如股票不再入选则卖出,形成持仓滚动策略。详细算法伪代码附录。
- 指标选择:
重点验证Sharpe比率(风险调整收益)、Alpha(超额收益)、年化收益率、换手率、胜率、以及99%置信度下的VaR(风险下界)。这些指标全面衡量策略表现及风险控制[pidx::10–13]。
---
3. 图表深度解读
3.1 图1:量化交易架构示意图
图表清晰展示了基于因子的量化交易两种主流流程:(1)计算股票因子值排序并持有;(2)固定股票池基础上通过因子生成多空信号动态交易。此图奠定报告后续策略设计的流程基础,说明Quantformer因子可替代传统计算流程[pidx::1]。
3.2 图2:股价走势及趋势预测示例
蜡烛图示意股票过去走势(涨跌趋势交替),着重要点为模型需基于历史价格及交易数据预测未来走势的方向,体现预测任务的复杂性和时间序列的关联性问题。该图形象说明模型目标,强调预测的未来趋势难点[pidx::3]。
3.3 图3:Quantformer整体框架结构
本图为模型外围数据处理、嵌入训练与预测模块流程图。展示了数据初始化为规则矩阵,经过多头注意力层处理形成特征匹配及最终预测的过程。图中多头自注意力部分的细节展示了Transformer的关键计算环节,辅以颜色分区清晰区分模块职责,体现了Transformer架构在金融时序中的应用调整[Pidx::7]。
3.4 图4:不同输出维度($d
f$)训练结果标签编码示例该图为模型训练标签的热编码表示,说明了根据收益分层模型如何构造目标分类分布。例如,$df=3$时使用三维向量标识收益低、中、高,$df=5$则细化收益等级。此设计兼顾了模型分类训练的现实可行性和收益层次的细致刻画,辅以序列表现标明训练的多样性和灵活性[Pidx::7–8]。
3.5 图5:不同因子回测表现对比图
该图直观展示了Quantformer因子(Trans Month 1,蓝色曲线)与基准CSI300(橙色)及多个经典价格-成交量型因子的累计收益对比。Quantformer因子收益曲线整体明显优于其他因子,持续走高且抗跌性强,体现了本模型独特因子优势尤其在回撤控制与持续盈利能力上的出色表现。此图是报告实证重要数据,验证了Quantformer在实际市场环境中的竞争力[pidx::14–15]。
3.6 图B1(附录二):不同量化因子性能散点图
两个散点图对比100个传统因子与基于Quantformer模型构建的因子表现。坐标轴为年化收益与99% VaR风险指标。Quantformer因子(尤其QFMonth1)在报酬-风险均衡区表现突出,点的大小与颜色映射alpha值,显示该因子具备较高的超额收益能力,整体上Quantformer因子集优于传统因子集合,确认了模型在盈利能力与风险管理上优势[pidx::25–26]。
---
4. 估值分析
报告未涉及具体股票估值数值计算与目标价预测,故无传统意义上的估值分析章节。其核心贡献在于提出机器学习架构Quantformer作为因子生成及策略构建工具,强调回测收益及风险指标的实证分析,而不是估值模型定价。基于自注意力机制和分类标签预测的因子评分机制是其“估值”本质体现。
---
5. 风险因素评估
报告间接提及风险与限制主要包括:
- 高频率(日频)数据交易策略表现不稳定,收益较低且波动较大,反映短期信号噪声多,策略风险加大。
- Transformer模型固有对全局位置编码不足,可能忽略精确信息间距离导致噪声敏感。
- 训练样本缺失月数据需剔除,数据质量和可用性可能对模型训练产生影响。
- 报告指出未来可以结合更多信号(如新闻、基本面)及进阶Transformer架构,潜在缓解现有限制。
- 策略换手率在某些实验中高达50%以上,可能意味着交易成本隐含风险。
报告通过多频率实验展示风险收益权衡,明确高换手频率带来的风险及非理想盈利,这体现了对模型风险因素的谨慎评估。对策略稳定性和泛化的风险亦隐含在数据频率及训练规模的比较中[pidx::10–16]。
---
6. 批判性视角与细微差别
- 优势与创新显著,缺少外部市场影响深度分析: 研究创新地将Transformer改造用于数值时间序列预测,取得优异结果。但对宏观经济周期调整、市场突发事件反应能力分析较少,值得进一步考量。
- 因子维度选取略显固定,输出维度灵活性待证实: 模型主要在$df=3$与$5$之间调节,是否能适应更多分类区间尚不明确。
- 回测策略相对简单,未涉及真实交易成本、滑点等实际因素: 换手率高的策略在现实中可能面临较高成本影响,这部分模拟不充分可能高估策略表现。
- 风险管理方面缺少对极端风险事件的量化分析,VaR虽估算但深层风险敞口未评估: 进一步风险规避策略和压力测试尚未展开。
- 部分章节中多次显示多头权重矩阵$W^Q$的下标错误(多处重复为$W
- 报告专注于中国市场数据,跨市场或跨资产类别的适用性存待验证。
此类细节和局限性均在报告内容或逻辑推断下审慎提出,未注入外部主观判断。
---
7. 结论性综合
报告提出的Quantformer模型是基于Transformer的创新型因子构建方法,针对传统Transformer无法直接处理数值金融数据及非seq2seq预测场景做出关键改良,具体包括用线性层替代词嵌入、简化解码器结构。通过对4600多只中国股票2010-2023年间超过500万条数据的训练和实证测试,Quantformer因子展现出超越传统100因子策略的预测能力和稳定盈利性能。
具体结论有:
- 模型输出设计合理,结合收益分位分类标签,将股票收益预测转为多类别概率分布问题,便于生成交易信号。
- 不同时间频率测试表明,月频策略最优,提供最高年化收益与稳定风险,说明中长期数据更适合模型挖掘有效信号。
- Quantformer因子Sharpe比率显著优于基准指标CSI300及传统价格成交量因子,表明风险调整后表现优异。
- 回测曲线和定量指标(年化收益、Alpha、VaR)全面验证模型的收益稳定性及风险控制能力。
- 训练样本规模与输出分位数调节展示了模型多样化的适应能力,1%最优收益分层表现最高收益但风险相对较大,说明存在风险收益权衡。
- 图表和数据结合充分,尤其第五章及附录展示了Quantformer强劲的市场适应性及超越传统因子的综合优势。
该研究在量化金融机器学习领域拓宽了Transformer的应用边界,提出了切实有效的因子建构框架,具备极高实操价值。目前算法代码开源,方便学术界和实务界进一步验证和拓展。未来的提升空间包括引入更多复杂信号融合、优化自注意力机制以及适配更大规模模型如GPT-4等。
---
参考文献溯源标注示例
所有引用的重要结论均严格依赖报告正文相应页码,示例:
- 量化交易策略架构及因子分类图示说明见[pidx::1]
- Transformer模型核心结构与量化应用局限见[pidx::5–6]
- Quantformer的具体架构及数学定义见[pidx::6–9]
- 训练细节与数据来源见[pidx::10–11]
- 回测性能综合评价见[pidx::13–15]
- 附录中多因子回测指标比较见[pidx::23–26]
---
总结
本报告细致剖析了由Zhang等人主导的Quantformer研究,全面展示了基于深度学习的Transformer改良模型在中国股市量化交易中的创新应用和优越表现。报告结构清晰,方法系统,数据严谨,指标丰富,对图表分析深入。Quantformer以其创新性与实用性为量化金融智能交易提供新思路,具有较强的推广价值及研究拓展空间。